1.网络爬虫
1.定义 : 网络蜘蛛 网络机器人,抓取网络数据的程序
2.总结 : 用Python程序去模仿人去访问网站,模仿的越逼真越好
3.目的 : 通过有效的大量的数据分析市场走势,公司的决策
2.企业获取数据的方式
1.公司自有
2.第三方数据平台购买
数据堂 贵阳大数据交易所
3.爬虫爬取数据
市场上没有或者价格太高,利用爬虫程序去爬取
3.Python做爬虫优势
Python : 请求模块,解析模块丰富成熟
PHP : 对多线程,异步支持不够好
JAVA : 代码笨重,代码量大
C/C++ : 虽然效率高,但代码成型太慢
4.爬虫分类
1.通用网络爬虫(搜索引擎引用,需要遵守robots协议)
http://www.qq.com/robots.txt
1.搜索引擎如何获取一个新网站的URL
1.网站主动向搜索引擎提供(百度站长平台)
2.和DNS服务商(万网),快速收录新网站
2.聚焦网络爬虫
自己写的爬虫程序 : 面向主题爬虫 面向需求爬虫
5.爬取数据步骤
1.确定需要爬取的URL地址
2.通过HTTP/HTTPS协议来获取响应的HTML页面
3.提取HTML页面里有用的数据
1.所需数据,保存
2.页面中其他的URL,继续 2 步