王锋

王锋的博客

他的个人主页  他的博客

爬虫名称

王锋  2010年08月24日 星期二 11:11 | 2652次浏览 | 0条评论

爬虫名称

得到网络爬虫名称的方法

  • 网络爬虫 所有者网站,获取其爬虫名称最为可靠
  • 一般情况下, User-agent 信息中也会给出爬虫名称,其中"/"之前的部分基本就是爬虫名称

例如:当获取到某次访问的 User-agent 信息为

google爬虫名称

  • 爬虫名称:
  1. Googlebot :google主爬虫程序,用于日常的网页抓取、索引编制
  2. Googlebot-Mobile:为google的移动索引抓取网页
  3. Googlebot-Image:为google图片搜索抓取图像文件
  4. Mediapartners-Google:抓取网页来确定 AdSense 的内容。只有您的网站上展示 AdSense 广告时,google才会使用它来抓取您的网站。本爬虫会配合主爬虫程序Googlebot同时影响网页收录。
  5. Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。仅在您使用 Google AdWords 推广网站时,google才使用这种漫游器。
 Mozilla/5.0 (compatible; Googlebot/2.1; +
 
  http://www.google.com/bot.html
 
 )
 
Mediapartners-Google

yahoo爬虫名称

 Mozilla/5.0 (compatible; Yahoo! Slurp China;
 
  http://misc.yahoo.com.cn/help.html
 
 )
 
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp )

baidu爬虫名称

  • 名称:Baiduspider
  • 参考网址:
  • User-agent范例:
 Baiduspider+(+
 
  http://www.baidu.com/search/spider.htm
 
 )
 

腾讯搜搜爬虫

  • 名称:Baiduspider
  • 参考网址:
  • User-agent范例:
 Sosospider+(+
 
  http://help.soso.com/webspider.htm
 
 )
 

搜狗爬虫名称

 Sogou web spider/3.0(+
 
  http://www.sogou.com/docs/help/webmasters.htm#07
 
 )
 

Sogou Orion spider/3.0(+ http://www.sogou.com/docs/help/webmasters.htm#07 )

新浪爱问爬虫名称

 iaskspider/2.0(+
 
  http://iask.com/help/help_index.html
 
 )
 
  • robots.txt规范:无介绍
 Mozilla/5.0 (compatible; YodaoBot/1.0;
 
  http://www.yodao.com/help/webmaster/spider/
 
 ; )
 
msnbot/1.0 (+ http://search.msn.com/msnbot.htm )
msnbot/1.1 (+ http://search.msn.com/msnbot.htm )

 

评论

我的评论:

发表评论

请 登录 后发表评论。还没有在Zeuux哲思注册吗?现在 注册 !

暂时没有评论

Zeuux © 2024

京ICP备05028076号