使用python写网络爬虫插件与抓包工具和请求模块-网帮你信息资讯

使用python写网络爬虫插件与抓包工具和请求模块

时间:2019-11-07 03:16:03 浏览:121次

1.Chrome浏览器插件
1. 插件安装步骤
1.右上角 - 更多工具 - 扩展程序
2.点开开发者模式
3.把插件拖拽到浏览器界面
2.插件介绍
1. Proxy SwitchOmega : 代理切换插件
2. XPath Helper : 网页数据解析插件
3. JSON View : 查看json格式的数据(好看)
2.Filldler抓包工具
1.抓包设置
1.设置Filldler抓包工具

2.设置浏览器代理
3.Anaconda 和 spyder
1.anaconda : 开源的python发行版本
2.Spyder : 集成的开发环境
spyder常用快捷键
1. 注释/取消注释 : ctrl + 1
2. 保存 : ctrl + s
3. 运行程序 : F5
4.WEB
1. HTTP 和 HTTPS
1. HTTP : 80
2. HTTPS : 443 HTTP的升级版
2. GET 和 POST
1. GET : 查询参数会在URL上显示出来
2. POST : 查询参数和提交数据在form表单里,不会在URL地址上显示
3. URL
http:// item.jd.com :80 /26606127795.html #detail
协议域名/IP地址端口资源路径锚点
4.User-Agent
记录用户的浏览器、操作系统等,为了让用户获取更好的HTML页面效果
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36

Mozilla ：Firefox(Gecko内核)
IE ：Trident(自己内核)
Linux ：KHTML(like Gecko)
Apple ：Webkit(like KHTML)
google：Chrome(like webkit)
5.爬虫请求模块
1.urllib.request
1、版本
1.python2中：urllib 和 urllib2
2.python3中：把2者合并,urllib.request
2、常用方法
1、urllib.request.urlopen("URL")
作用：向网站发起请求并获取响应
# urlopen() 得到的响应对象response ：bytes
# response.read().decode("utf-8") ：bytes->str
2、urllib.request.Request(url,headers={})
1、重构User-Agent,爬虫和反爬虫斗争第一步
2、使用步骤
1、构建请求对象request ：Request()
2、获取响应对象response ：urlopen(request)
3、利用响应对象response.read().decode("utf-8")
3. 请求对象request方法
1. add_header()
作用 : 添加/修改headers(User-Agent)
2. get_header("User-agent") : 只有U是大写
作用 : 获取已有的HTTP报头的值
4. 响应对象response方法
1. read() : 读取服务器响应的内容
2. getcode()
作用 : 返回HTTP的响应码
200 : 成功
4XX : 服务器页面出错
5XX : 服务器出错
3. info()
作用 : 返回服务器响应的报头信息
2.urllib.parse
1.quote("中文") 见:04_quote编码.py
2.urlencode(字典)
url : wd="美女"

d = {"wd":"美女"}
d = urllib.parse.urlencode(d)
print(d)
结果 : wd=%E7%BE%8E%E5%A5%B3
3.unquote("编码之后的字符串")
3.百度贴吧数据抓取
要求：
1.输入贴吧的名称
2.输入抓取的起始页和终止页
3.把每一页的内容保存到本地：第1页.html 第2页.html
步骤：
1. 找URL规律(拼接URL)
第1页：http://tieba.baidu.com/f?kw=达内&pn=0
第2页：http://tieba.baidu.com/f?kw=达内&pn=50
第3页：http://tieba.baidu.com/f?kw=达内&pn=100
第n页：pn=(n-1)*50
2. 获取响应内容

3. 保存到本地/数据库

[上一篇]如何修改linux或centos7.x下ssh的: [下一篇]python编写网络爬虫说明定义