Python论坛  - 讨论区

标题:两个scrapy downloadmiddleware来阻止站点对网络爬虫的爬取限制

2013年04月02日 星期二 15:26

写了两个scrapy downloadmiddleware用来突破网站对爬虫爬取的限制: 
    1.GoogleCacheMiddleware:你可以设置需要通过google cache进行访问的站点域名,类似: 
GOOGLE_CACHE_DOMAINS = ['www.woaidu.org',],然后下载时会自动访问google cache 版本的站点 
    2.RotateUserAgentMiddleware:每次请求会随机选择user-aget进行设置,默认user-aget包括浏览器包括:chrome,I E,firefox,Mozilla,opera,netscape 

这是代码地址:https://github.com/gnemoug/scrapy.git,在scrapy/scrapy/contrib/downloadmiddleware目录下,文件名分别为:rotate_useragent.py和 google_cache.py,使用方法请看 README.rst

2013年04月02日 星期二 19:16

cool!

 

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号