第五章
网络舆情监测技术
1
整理课件
导言
网络舆情监测技术非常复杂,涉及许多计算机与网络等方面的专业知识,对于新闻与传播的从业者和研究者而言,掌握网络舆情监测相关的基本技术原理,把握技术的基本发展方向以及它们对于网络舆情监测的影响,是十分必要的。
2
整理课件
CONTENTS
1
网络舆情监测数据采集
2
网络舆情监测数据分析
3
网络舆情监测可视化技术
4
大数据时代网络舆情监测技术遇到的挑战
3
整理课件
1
网络舆情监测数据采集
4
整理课件
5
整理课件
一、数据采集基本技术
(一)网络爬虫
网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。
(1)批量型爬虫(batch crawler)。批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。批量型爬虫是目前数据采集系统中最简单的爬虫系统。
(2)增量型爬虫(incremental crawler)。增量型爬虫会保持持续不断的抓取,对于已经抓取过的网页会按照一定策略定期更新。增量型爬虫是目前数据采集系统中最常用的爬虫系统。
(3)垂直型爬虫(focused crawler)。垂直型爬虫只关注特定主题或特定行业的网页,其最大的挑战就是如何识别网页的内容是否属于指定行业或主题。一般只有垂直行业分析才会需要此类型的爬虫。
6
整理课件
网络爬虫的特性:
(1)高性能:爬虫系统在单位时间内下载的网页数量越多性能越高。
(2)可扩展性:爬虫系统应该很容易通过增加抓取服务器和爬虫数量来缩短抓取周期。
(3)健壮性:包括两方面,一是爬虫系统可以处理抓取中遇到的各种非正常情况,二是爬虫系统自身有一套健壮的容错机制。
(4)友好性:包括两方面,一是保护网站的部分私密性,二是减少被抓取网站的网络负载。
7
整理课件
一、数据采集基本技术
(二)网页去重
在当今的互联网环境中,有相当大比例的内容是完全相同或者大体相近的。这些网页不仅会增加数据采集系统的压力,而且会影响后续数据分析结果的质量,所以网页去重的问题尤为突出,已经成为提高数据质量的关键技术之一。
在实际的数据采集系统中,往往是在爬虫阶段进行网页去重操作。
8
整理课件
一、数据采集基本技术
(三)分布式技术
面对海量的数据抓取任务,只有采取分布式架构才有可能在较短的时间周期内完成一轮抓取工作。常见的分布式架构有两种:主从式分布爬虫和对等式分布爬虫。
主从式分布爬虫(master-slave)是分布式技术中最传统的也是最常见的一种形式,它指不同的服务器承担着不同的角色,其中有一台专门的master服务器来维护待抓取的URL(universal resource locator,统一资源定位符)队列,它负责每次将URL分发到不同的slave服务器,而slave服务器则负责实际的网页下载工作。Master服务器除了维护待抓取URL队列以及分发URL之外,还要负责调解各个slave服务器的负载情况,以免某些slave服务器过于清闲或者劳累。
在对等式分布爬虫(peer to peer)体系中,服务器之间不存在分工差异,每台服务器都承担着一样的功能,各自负责一部分URL的抓取工作。由于没有URL服务器存在,如何分工就成了主要问题。
9
整理课件
二、数据采集原理
10
整理课件
第五章 网络舆情检测技术 来自淘豆网m.daumloan.com转载请标明出处.