下载此文档

新浪新闻采集方法.docx


文档分类:通信/电子 | 页数:约19页 举报非法文档有奖
1/19
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/19 下载此文档
文档列表 文档介绍
新浪新闻采集方法
本文介绍使用八爪鱼爬虫软件采集新浪新闻的方法。
采集网站:
http://news./china/
采集的内容包括:新闻标题,新闻正文
使用功能点:
列表及详细信息采集
orial/?t=1
Ajax点击加载
Xpath修改
自定义数据字段
步骤1:创建新浪新闻爬虫采集任务
进入主界面,选择“自定义采集”
新浪新闻爬虫采集步骤1
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
 
新浪新闻爬虫采集步骤2
步骤2:创建列表循环
1)打开网页之后,鼠标选中第一个新闻列表的标题,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”
新浪新闻爬虫采集步骤3
2)接着选择“采集以下链接文本”
新浪新闻爬虫采集步骤4
然后选择“点击该链接”。
新浪新闻爬虫采集步骤5
步骤3:提取详细信息
1)进入列表详情页面,鼠标选中文章内容第一段,系统会自动识别出其他相似的链接,然后在右面的提示框中选择“选中全部”,
新浪新闻爬虫采集步骤6
 之后选择“采集以下元素文本”
新浪新闻爬虫采集步骤7
 2)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。
 
新浪新闻爬虫采集步骤8
3)选中提取数据的步骤,鼠标点击“自定义数据字段”
新浪新闻爬虫采集步骤9
之后选择“自定义数据合并方式

新浪新闻采集方法 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数19
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sxlw2015
  • 文件大小2.46 MB
  • 时间2018-07-18
最近更新