Python网络爬虫实习汇报
Python 网络爬虫实习汇报
目录 一、选题背景 ........................................................... 错误!未定义书签。
理 二、爬虫原理。签书义定未!误错ﻩ
三、爬虫历史和分类 ................................................ 错误!未定义书签。
较 四、常见爬虫框架比较。签书义定未!误错ﻩ
五、数据爬取实战
1分析网页
# 获取 ht ml l 源代码
def _ _g g e tHtml( ):
d ata =
]
ﻫ
p ageN u m = 1
pageSize = 0
try:
ﻫ
wh i le ( p ageSiz e
〈 = 1 25):
# h ead e rs =
{ { ’U ser —A A ge e n t" :’ Mozill l a /5 、 0 (Windows N T 6 、 1) A pp p l eWe bK K i t/5 37、1 1 、r ead 、 decode("ut f — 8 ") ﻫ
da ta a 、 append(url li i b、r equ e st 、 urlope n) )
page Si i z e + =
25 5
ﻫ
p p ageN Nu1 m += 1
ﻫ
pr i nt( pa geSize, page N um)
excep t
E E x cepti o n a s
e:
r r ai se e
retur n
data
2 爬取数据 def
_ _ _ getData(html):
title =
[]
# #
电影标题 ﻫ
#rati ng_ _ n um =
# 导演 ﻫ
da t a = {}
# b s4 解析 h h t ml ﻫ
s oup =
Beauti fu u lS S ou p(html。
” html 、 parser)
”)
ﻫ
for li
i n s oup p 、 find( ”ol l ” , at t tr r s= = { "clas s’:
" " g rid_view"} )、 fin d_ al l、t ext )
ra n ge _ num、 、a a p pen d (li、 、 fi n d("di v”。
class _=’pi c" " )、 fin d
)
ﻫ
#span s
= l i、 find("d iv ”。
c c l as s_= =’ ’ star’ ’) )、 、 find_ al l l):
#
i f x
> 〈 title 〉Insert title here </ / he ad 〉) ")
ﻫ
f f 、 wr i te( ”〈b
2021年Python网络爬虫实习汇报 来自淘豆网m.daumloan.com转载请标明出处.