2012年01月22日 星期日 10:36
下面这段程序抓取google翻译的网页会返回一个403的错误
import urllib2
reg = urllib2.Request("http://"+raw_input(u"输入网址\n"))
fd = urllib2.urlopen(reg)
data = fd.read()
print data
但是下面这段程序可以成功抓取网页内容
import urllib
fd = urllib.urlopen("http://"+raw_input(u"输入网址\n"))
data = fd.read()
print data
为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。
PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn"
--
项超
哈尔滨工业大学
计算机科学与技术系
邮箱:cloudaice在163.com
gmail邮箱:cloudaice在gmail.com
QQ:1214696737
-------------- 下一部分 --------------
一个HTML附件被移除...
URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/4d9dbb7f/attachment-0001.html>
2012年01月22日 星期日 10:58
useragent?抓包看 On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote: > 下面这段程序抓取google翻译的网页会返回一个403的错误 > import urllib2 > reg = urllib2.Request("http://"+raw_input(u"输入网址\n")) > fd = urllib2.urlopen(reg) > data = fd.read() > print data > 但是下面这段程序可以成功抓取网页内容 > import urllib > fd = urllib.urlopen("http://"+raw_input(u"输入网址\n")) > data = fd.read() > print data > 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。 > PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn" > -- > 项超 > 哈尔滨工业大学 > 计算机科学与技术系 > 邮箱:cloudaice at 163.com > gmail邮箱:cloudaice at gmail.com > QQ:1214696737 > > > -- Sent from Gmail Mobile -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/106bf492/attachment.html>
2012年01月22日 星期日 10:59
这是哲思不是cpyug On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote: > 下面这段程序抓取google翻译的网页会返回一个403的错误 > import urllib2 > reg = urllib2.Request("http://"+raw_input(u"输入网址\n")) > fd = urllib2.urlopen(reg) > data = fd.read() > print data > 但是下面这段程序可以成功抓取网页内容 > import urllib > fd = urllib.urlopen("http://"+raw_input(u"输入网址\n")) > data = fd.read() > print data > 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。 > PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn" > -- > 项超 > 哈尔滨工业大学 > 计算机科学与技术系 > 邮箱:cloudaice at 163.com > gmail邮箱:cloudaice at gmail.com > QQ:1214696737 > > > -- Sent from Gmail Mobile -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/133bb4f4/attachment.html>
2012年01月22日 星期日 14:25
这是哲思不是cpyug On Sunday, January 22, 2012, 项超 <cloudaice at 163.com> wrote: > 下面这段程序抓取google翻译的网页会返回一个403的错误 > import urllib2 > reg = urllib2.Request("http://"+raw_input(u"输入网址\n")) > fd = urllib2.urlopen(reg) > data = fd.read() > print data > 但是下面这段程序可以成功抓取网页内容 > import urllib > fd = urllib.urlopen("http://"+raw_input(u"输入网址\n")) > data = fd.read() > print data > 为什么会出现这样的情况?我想知道这里面具体实现方式到哪里可以查到啊,现在只会按照书上说的依样画葫芦,出现问题了就不知道怎么回事了。 > PS:两个程序都是在提示符"输入网址"后输入"translate.google.cn" > -- > 项超 > 哈尔滨工业大学 > 计算机科学与技术系 > 邮箱:cloudaice at 163.com > gmail邮箱:cloudaice at gmail.com > QQ:1214696737 > > > -- Sent from Gmail Mobile -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://www.zeuux.org/pipermail/zeuux-universe/attachments/20120122/fe26d9f2/attachment.html>
Zeuux © 2025
京ICP备05028076号