北京网帮你
使用python写网络爬虫插件与抓包工具和请求模块
时间:2019-11-07 03:16:03 浏览:121

1.Chrome浏览器插件
 1. 插件安装步骤
   1.右上角 - 更多工具 - 扩展程序
   2.点开 开发者模式
   3.把插件 拖拽 到浏览器界面
 2.插件介绍
   1. Proxy SwitchOmega : 代理切换插件
   2. XPath Helper : 网页数据解析插件
   3. JSON View : 查看json格式的数据(好看)
2.Filldler抓包工具
 1.抓包设置
   1.设置Filldler抓包工具

   2.设置浏览器代理
3.Anaconda 和 spyder
 1.anaconda : 开源的python发行版本
 2.Spyder : 集成的开发环境
   spyder常用快捷键
     1. 注释/取消注释 : ctrl + 1
     2. 保存 : ctrl + s
     3. 运行程序 : F5
4.WEB
 1. HTTP 和 HTTPS
   1. HTTP : 80
   2. HTTPS : 443 HTTP的升级版
 2. GET 和 POST
   1. GET : 查询参数会在URL上显示出来
   2. POST : 查询参数和提交数据在form表单里,不会在URL地址上显示
 3. URL
   http://  item.jd.com  :80  /26606127795.html #detail
    协议    域名/IP地址 端口  资源路径          锚点
 4.User-Agent
   记录用户的浏览器、操作系统等,为了让用户获取更好的HTML页面效果
   Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36

   Mozilla :Firefox(Gecko内核)
   IE :Trident(自己内核)
   Linux :KHTML(like Gecko)
   Apple :Webkit(like KHTML)
   google:Chrome(like webkit)
5.爬虫请求模块
 1.urllib.request
   1、版本
     1.python2中 :urllib 和 urllib2
     2.python3中 :把2者合并,urllib.request
   2、常用方法
     1、urllib.request.urlopen("URL")
       作用 :向网站发起请求并获取响应
   # urlopen() 得到的响应对象response :bytes
   # response.read().decode("utf-8") :bytes->str
     2、urllib.request.Request(url,headers={})
       1、重构User-Agent,爬虫和反爬虫斗争第一步
   2、使用步骤
     1、构建请求对象request :Request()
     2、获取响应对象response :urlopen(request)
     3、利用响应对象response.read().decode("utf-8")
     3. 请求对象request方法
       1. add_header()
     作用 : 添加/修改headers(User-Agent)
   2. get_header("User-agent") : 只有U是大写
     作用 : 获取已有的HTTP报头的值
     4. 响应对象response方法
       1. read() : 读取服务器响应的内容
   2. getcode()
     作用 : 返回HTTP的响应码
       200 : 成功
       4XX : 服务器页面出错
       5XX : 服务器出错
       3. info()
     作用 : 返回服务器响应的报头信息
 2.urllib.parse
   1.quote("中文") 见:04_quote编码.py
   2.urlencode(字典)
     url : wd="美女"

     d = {"wd":"美女"}
     d = urllib.parse.urlencode(d)
     print(d)
     结果 : wd=%E7%BE%8E%E5%A5%B3
   3.unquote("编码之后的字符串")
 3.百度贴吧数据抓取
   要求:
     1.输入贴吧的名称
     2.输入抓取的起始页和终止页
     3.把每一页的内容保存到本地:第1页.html 第2页.html
   步骤:
     1. 找URL规律(拼接URL)
       第1页 :http://tieba.baidu.com/f?kw=达内&pn=0
   第2页 :http://tieba.baidu.com/f?kw=达内&pn=50
   第3页 :http://tieba.baidu.com/f?kw=达内&pn=100
   第n页 :pn=(n-1)*50
     2. 获取响应内容

     3. 保存到本地/数据库

[上一篇]如何修改linux或centos7.x下ssh的
[下一篇]python编写网络爬虫说明定义
Copyright 2022 © 93580.com.cn 网帮你

2022 © 版权所有 红花岗区网帮你信息技术工作室

工信部备案号:黔ICP备2024036985号-2

请使用网帮你微信扫码登录