下载此文档

网络舆情监测设计方案.doc

文档分类：IT计算机 | 页数：约13页举报非法文档有奖

1/13

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/13 下载此文档

文档列表 文档介绍

精心整理
-
. z.
理，技术先进，易于扩展，既能满足当前的业务数据处理要求，又能符合长期开展的需要。
总体架构

网络舆情监测平台采用J2EE技术体系，前端采用Aja*开发技术，操作简单、易用、高效、稳定。平台所有功能均采用纯B/S构造设计，零客户端维护。
实时采集网络舆情信息，如门户、知名论坛、搜索引擎、博客、贴吧，微博等，7*24小时为用户提供信息采集、信息处理、信息编辑功能，实时掌握所关注的网络舆情信息，为交通行业相关部门提供决策参考依据。

网络舆情监测平台是针对互联网这一新兴媒体，通过对海量网络舆情信息进展实时的自动采集、分析、汇总、监视、并识别其中的关键信息，及时通知到相关人员，从而第一时间应急响应，为正确舆论导向及收集民众意见提供直接支持的一套信息化平台。
本工程涉及的关键技术

网络爬虫又被称为网页蜘蛛、网络机器人，在FOAF社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

Web网络爬虫系统一般会选择一些比拟重要的、出度(网页中链出数)较大的的URL作为种子URL集合。网络爬虫系统将这些种子集合作为初始URL，开场数据的抓取。由于网页中含有信息，通过已有网页的URL会得到一些新的URL，可以把网页之间的指向视为一个森林，每个种子URL对应的网页是森林中的一棵树的根节点。
这样，Web网络爬虫系统就可以根据先广搜索算法或者先深搜索算法遍历所有的网页。由于先深搜索算法可能会使爬虫系统陷入一个部，不利于搜索比拟靠近首页的网页信息，因此一般采用先广搜索算法采集网页。Web网络爬虫系统首先将种子URL放入下载队列，然后简单地从队首取出一个URL下载其对应的网页。得到网页的容将其存储后，再经过解析网页中的信息可以得到一些新的URL，将这些URL参加下载队列。然后再取出一个URL，对其对应的网页进展下载，然后再解析，如此反复进展，知道遍历了整个网络或者满足*种条件后才会停顿下来。

分布式计算是解决海量数据挖掘任务，提高海量数据挖掘的有效手段之一，在理论和实践上已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的容，而云计算平台提供了分布式文件存储和并行的计算能力，因此很好地解决了这两个层面的容。
下面主要分析几个主流的分布式文件系统和分布式并行计算框架，以更好地构建云计算数据挖掘平台的核心支撑能力。
分布式文件系统有效地解决了海量数据存储问题，并实现了位置透明、移动透明、性能透明、扩展透明、高容错、高平安、高性能等关键功能。目前业界比拟流行分布式文件系统有Google文件系统(GFS)、分布式文件系统(HDFS)、文件系统(KFS)，这3种分布式文件系统都是基于Google提出的分布式文件系统理论进展研发的。Google提出的GFS就是解决其海量数据存储和搜索、分析等问题，而和KFS是基于GFS理论根底上实现的开源系统，并且在商业和学术领域得到了广泛的应用。
分布式并行计算框架对于高效完成数据挖掘计算任务极其重要，并且它对分布式计算的一些技术细节进展了封装，例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等，使用户不需要考虑这些细节，而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率，还可以降低系统维护的本钱。目前典型的分布式计算框架有：
精心整理
-
. z.
.. .
z
MapReduce是提出的一个并行计算框架，它可以在大量PC机上并行执行海量数据的收集和分析任务。它把如进

网络舆情监测设计方案来自淘豆网m.daumloan.com转载请标明出处.