下载此文档

2021年Python网络爬虫实习汇报.docx


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
Python网络爬虫实习汇报

  Python 网络爬虫实习汇报
  目录 一、选题背景 ........................................................... 错误!未定义书签。
  理 二、爬虫原理。签书义定未!误错ﻩ
  三、爬虫历史和分类 ................................................ 错误!未定义书签。
  较 四、常见爬虫框架比较。签书义定未!误错ﻩ
  五、数据爬取实战
  1分析网页
  # 获取 ht ml l 源代码
  def _ _g g e tHtml( ):
  d ata =
  ]
  ﻫ
  p ageN u m = 1
  pageSize = 0
   try:
  ﻫ
  wh i le ( p ageSiz e
  〈 = 1 25):
  # h ead e rs =
  { { ’U ser —A A ge e n t" :’ Mozill l a /5 、 0 (Windows N T 6 、 1) A pp p l eWe bK K i t/5 37、1 1 、r ead 、 decode("ut f — 8 ") ﻫ
  da ta a 、 append(url li i b、r equ e st 、 urlope n) )
  page Si i z e + =
  25 5
  ﻫ
  p p ageN Nu1 m += 1
  ﻫ
  pr i nt( pa geSize, page N um)
  excep t
  E E x cepti o n a s
  e:
  r r ai se e
  retur n
  data
  2 爬取数据 def
  _ _ _ getData(html):
  title =
  []
  # #
  电影标题 ﻫ
  #rati ng_ _ n um =
  # 导演 ﻫ
  da t a = {}
  # b s4 解析 h h t ml ﻫ
  s oup =
  Beauti fu u lS S ou p(html。
  ” html 、 parser)
  ”)
  ﻫ
  for li
  i n s oup p 、 find( ”ol l ” , at t tr r s= = { "clas s’:
  " " g rid_view"} )、 fin d_ al l、t ext )
  ra n ge _ num、 、a a p pen d (li、 、 fi n d("di v”。
  class _=’pi c" " )、 fin d
  )
  ﻫ
  #span s
  = l i、 find("d iv ”。
  c c l as s_= =’ ’ star’ ’) )、 、 find_ al l l):
  #
  i f x
   > 〈 title 〉Insert title here </ / he ad 〉) ")
  ﻫ
  f f 、 wr i te( ”〈b

2021年Python网络爬虫实习汇报 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人读书百遍
  • 文件大小16 KB
  • 时间2021-02-21