1.Chrome浏览器插件
1. 插件安装步骤
1.右上角 - 更多工具 - 扩展程序
2.点开 开发者模式
3.把插件 拖拽 到浏览器界面
2.插件介绍
1. Proxy SwitchOmega : 代理切换插件
2. XPath Helper : 网页数据解析插件
3. JSON View : 查看json格式的数据(好看)
2.Filldler抓包工具
1.抓包设置
1.设置Filldler抓包工具
2.设置浏览器代理
3.Anaconda 和 spyder
1.anaconda : 开源的python发行版本
2.Spyder : 集成的开发环境
spyder常用快捷键
1. 注释/取消注释 : ctrl + 1
2. 保存 : ctrl + s
3. 运行程序 : F5
4.WEB
1. HTTP 和 HTTPS
1. HTTP : 80
2. HTTPS : 443 HTTP的升级版
2. GET 和 POST
1. GET : 查询参数会在URL上显示出来
2. POST : 查询参数和提交数据在form表单里,不会在URL地址上显示
3. URL
http:// item.jd.com :80 /26606127795.html #detail
协议 域名/IP地址 端口 资源路径 锚点
4.User-Agent
记录用户的浏览器、操作系统等,为了让用户获取更好的HTML页面效果
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36
Mozilla :Firefox(Gecko内核)
IE :Trident(自己内核)
Linux :KHTML(like Gecko)
Apple :Webkit(like KHTML)
google:Chrome(like webkit)
5.爬虫请求模块
1.urllib.request
1、版本
1.python2中 :urllib 和 urllib2
2.python3中 :把2者合并,urllib.request
2、常用方法
1、urllib.request.urlopen("URL")
作用 :向网站发起请求并获取响应
# urlopen() 得到的响应对象response :bytes
# response.read().decode("utf-8") :bytes->str
2、urllib.request.Request(url,headers={})
1、重构User-Agent,爬虫和反爬虫斗争第一步
2、使用步骤
1、构建请求对象request :Request()
2、获取响应对象response :urlopen(request)
3、利用响应对象response.read().decode("utf-8")
3. 请求对象request方法
1. add_header()
作用 : 添加/修改headers(User-Agent)
2. get_header("User-agent") : 只有U是大写
作用 : 获取已有的HTTP报头的值
4. 响应对象response方法
1. read() : 读取服务器响应的内容
2. getcode()
作用 : 返回HTTP的响应码
200 : 成功
4XX : 服务器页面出错
5XX : 服务器出错
3. info()
作用 : 返回服务器响应的报头信息
2.urllib.parse
1.quote("中文") 见:04_quote编码.py
2.urlencode(字典)
url : wd="美女"
d = {"wd":"美女"}
d = urllib.parse.urlencode(d)
print(d)
结果 : wd=%E7%BE%8E%E5%A5%B3
3.unquote("编码之后的字符串")
3.百度贴吧数据抓取
要求:
1.输入贴吧的名称
2.输入抓取的起始页和终止页
3.把每一页的内容保存到本地:第1页.html 第2页.html
步骤:
1. 找URL规律(拼接URL)
第1页 :http://tieba.baidu.com/f?kw=达内&pn=0
第2页 :http://tieba.baidu.com/f?kw=达内&pn=50
第3页 :http://tieba.baidu.com/f?kw=达内&pn=100
第n页 :pn=(n-1)*50
2. 获取响应内容
3. 保存到本地/数据库