Python论坛  - 讨论区

标题:关于python抓取web页面信息(关键字 ajax 验证码)

sam

sam

2012年05月22日 星期二 09:34

我现在在做一个QQ相册的图片抓取的功能,抓取指定QQ号码的图片专辑,碰到了几点难点(我使用的是z.qq.com 3g版的QQ空间,必须登录再能查看其他公开相册,就是说我手里已经有一个开通qq空间的帐号)
1.QQ相册的专辑列表是后台ajax加载的,获取专辑url是一个难题(chrome-F12 js设断点,追踪了半天也么有找到专辑连接的信息)
2.在抓取的时候,可能会出现即使登录也会要求用户重新输入验证码,验证。
不知道 能否使用Windmill或者Selenium 来解决这个问题
希望社区有过web抓取的大侠指点下
thanks advance!

2012年05月23日 星期三 16:50

只用过urllib2+cookielib~~

2012年05月25日 星期五 19:02

验证码需要图像识别一下

如下红色区域有误,请重新填写。

    你的回复:

    请 登录 后回复。还没有在Zeuux哲思注册吗?现在 注册 !

    Zeuux © 2024

    京ICP备05028076号