网站首页娱乐新闻焦点新闻历史秘闻社会百态技术文章科技资讯其他资讯女性专栏

首页 > 网络文摘 > 正文

用 python 或者curl 抓取web数据时

浏览数：29 / 时间：2015年06月08日

　　今天接到一个web的同事求助，他本来通过java抓取一个web页面的内容，但是发现抓取得都是些乱码，然后又尝试用 python的urllib来获取，依然是乱码，不过在浏览器访问却是正常的json格式数据。

　　首先，我先用curl获取了下这个web，发现确实是一些不可见的字符，把它保存下来。

　　再使用浏览器获取下这个web内容，对比下发现字节数是不一样的，说明不是编码显示的问题。

　　这个时候我考虑可能是http协议参数的问题，于是使用wireshark捕获用浏览器的请求，用tcpdump捕获了curl的请求，通过对比http get请求参数发现，在curl访问的时候有一项Content-Encoding:gzip，推断难道是使用gzip压缩了？

　　使用gzip命令把刚才通过curl命令获取的web数据解压下... 果然是这样...问题解决。

　　对web不是很了解的我，觉得还挺有意思的...

郑重声明：本站内容如果来自互联网及其他传播媒体，其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。

用 python 或者curl 抓取web数据时

标签：编程语言 Java C C# Javascript js Python Ruby Spring 程序 VB

相关文章

随机文章

您可能还喜欢

您可能还喜欢

最新图文

更多

可爱穿搭很重要

可爱穿搭很重要

工藤美樱写真集

工藤美樱写真集

斯米兰海水是真不错

斯米兰海水是真不错

海边想拍氛围照

海边想拍氛围照

海岛度假

海岛度假

甜妹 ootd 穿搭

甜妹 ootd 穿搭

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

在大‮的理‬日‮就子‬是在‮海洱‬边发‬发呆

7080后儿时集体回忆插画

7080后儿时集体回忆插画

西安子午峪满山的白杜鹃太美了

西安子午峪满山的白杜鹃太美了

职业模特拍摄省事很多

职业模特拍摄省事很多

您可能还喜欢

更多

周杰伦的新婚妻子昆凌

周杰伦的新婚妻子昆凌

中山路人徒手接住空中坠落小孩

中山路人徒手接住空中坠落小孩

甜妹 ootd 穿搭

甜妹 ootd 穿搭

金曲奖红毯众星云集张学友陈奕迅角逐歌王

金曲奖红毯众星云集张学友陈奕迅角逐歌王

2019“俄罗斯小姐”选美大赛，最终 Alina Sanko 夺冠

2019“俄罗斯小姐”选美大赛，最终 Alina Sanko 夺冠

让人心灵震惊！你能坚持看到第几张？

让人心灵震惊！你能坚持看到第几张？

美国罕见单羊膜双胞胎女婴牵手出生

美国罕见单羊膜双胞胎女婴牵手出生

泰国地下女子裸体泰拳比赛照曝光

泰国地下女子裸体泰拳比赛照曝光

福建清光绪正五品官员古墓被盗发现一具干尸

福建清光绪正五品官员古墓被盗发现一具干尸

惠州华润小径湾试拍

惠州华润小径湾试拍

您可能还喜欢

更多

美女翻译头戴发卡清纯小清新

美女翻译头戴发卡清纯小清新

男子在背上刺《清明上河图》历时7天完成

男子在背上刺《清明上河图》历时7天完成

北海银滩试拍

北海银滩试拍

特斯拉 MODEL S 图集

特斯拉 MODEL S 图集

巴西男子头颈颠倒身残志坚

巴西男子头颈颠倒身残志坚

刘亦菲神仙姐姐十年颜值一直在线

刘亦菲神仙姐姐十年颜值一直在线

启功书法部分欣赏

启功书法部分欣赏

杰布·布什宣布参加2016年美国总统大选

杰布·布什宣布参加2016年美国总统大选

尼泊尔四个月大婴儿震后22小时获救

尼泊尔四个月大婴儿震后22小时获救

安倍在寿司店请奥巴马喝酒

安倍在寿司店请奥巴马喝酒