Baiduspider-render/2.0是百度渲染蜘蛛!百度渲染蜘蛛是什么?第一次听到这个词是不是很神奇,其实这个词早在2017年就已经出现了,百度渲染蜘蛛(Baiduspider-render)是百度专门用来抓取网页上的CSS、java script代码的蜘蛛UA,通常被俗称为高级爬虫。
Baiduspider-render/2.0是什么蜘蛛
百度高级爬虫UA匹配的IP段:111.206.221.*,111.206.198.*,两个IP段经常同时出现。
Baiduspider-render的出现是百度为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度渲染蜘蛛访问网站的CSS、java script和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新UA来访问站点的上述资源。
从2017年3月24日开始,百度搜索就抽取了部分优质站点进行抓取内测,可能会对站点服务器造成一定压力影响,请尽量不要对UA进行封禁,以免造成不可逆转的损失。
2017年百度官方提供最新UA如下:
PC:Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
移动:Mozilla/5.0(iPhone;CPU iPhone OS 9_1 like Mac OS X)AppleWebKit/601.1.46(KHTML,like Gecko)Version/9.0 Mobile/13B143 Safari/601.1(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
听百度官方的文档描述,对优质站点进行抓取内测,这个是随机选取高质量站点,原因是什么呢?
1、高质量站点内容丰富,包含css、js、图片等,便于蜘蛛抓取和理解;
2、高质量站点服务器好,因为这个高级爬虫数量大,一般小站点会导致站点不稳定;
推推蛙总结:百度渲染蜘蛛是百度想要理解网页中css、js、图片中的信息,之前百度是无法识别js的,百度一直在朝着可以理解js文件和图片描述的信息,这样便于更好地制定新的排名算法和更好地提升用户体验。