汪汪海的实验室海的实验室--各种图形学实验和数据结构实验以及其他一切琐碎杂乱的小笔记们都相遇在此齐聚一堂共同守候0 --各种图形学实验和数据结构实验以及其他一切琐碎杂乱的小笔记们都相遇在此齐聚一堂共同守候0 error(s),0warning(s)这神奇时刻的到来 error(s),0warning(s)这神奇时刻的到来[[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容 Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容分类:爬虫Python2013-05-1323:451265人阅读评论(0)收藏举报所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端的响应资源。在Python中,我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(UniformResourceLocators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。最简单的urllib2的应用代码只需要四行。: importurllib2 response=('/') html=() printhtml 按下F5可以看到运行的结果: 我们可以打开百度主页,右击,选择查看源代码(火狐OR谷歌浏览器均可),会发现也是完全一样的内容。也就是说,上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。这就是一个最简单的urllib2的例子。 1 除了"http:",URL同样可以使用"ftp:","file:"等等来替代。 HTTP是基于请求和应答机制的: 客户端提出请求,服务端提供应答。 urllib2用一个Request对象来映射你提出的HTTP请求。在它最简单的使用形式中你将用你要请求的地址创建一个Request对象, 通过调用urlopen并传入Request对象,将返回一个相关请求response对象, 这个应答对象如同一个文件对象,()。: importurllib2 req=('') response=(req) the_page=() printthe_page 可以看到输出的内容和test01是一样的。 urllib2使用相同的接口处理所有的URL头。例如你可以像下面那样创建一个ftp请求。 req=('ftp:///') 在HTTP请求时,允许你做额外的两件事。 , 有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本,或其他WEB应用程序挂接)。在HTTP中,这个经常使用熟知的POST请求发送。这个通常在你提交一个HTML表单时由你的浏览器来做。并不是所有的POSTs都来源于表单,你能够使用POST提交任意的
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容.pdf 来自淘豆网m.daumloan.com转载请标明出处.