下载此文档

网络舆情监测项目设计方案.docx


文档分类:IT计算机 | 页数:约32页 举报非法文档有奖
1/32
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/32 下载此文档
文档列表 文档介绍
.
1 / 32
网络舆情监测项目设计方案
项目的背景及必要性
项目背景
近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到巨大作用。如""汶川特震中传统媒个种子 URL对应的网页是森林中的一棵树的根节点。
这样,Web 网络爬虫系统就可以根据先广搜索算法或者先深搜索算法遍历所有的网页。由于先深搜索算法可能会使爬虫系统陷入一个部,不利于搜索比较靠近首页的网页信息,因此一般采用先广搜索算法采集网页。Web 网络爬虫系统首先将种子 URL放入下载队列,然后简单地从队首取出一个 URL下载其对应的网页。得到网页的容将其存储后,再经过解析网页中的信息可以得到一些新的 URL,将这些URL加入下载队列。然后再取出一个URL,对其对应的网页进行下载,然后再解析,如此反复进行,知道遍历了整个网络或者满足某种条件后才会停止下来。

分布式计算是解决海量数据挖掘任务,提高海量数据挖掘的有效手段之一,在理论和实践上已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的容,而云计算平台提供了分布式文件存储和并行的计算能力,因此很好地解决了这两个层面的容。
下面主要分析几个主流的分布式文件系统和分布式并行计算框架,以更好地构建云计算数据挖掘平台的核心支撑能力。
.
6 / 32
分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、扩展透明、高容错、高安全、高性能等关键功能。目前业界比较流行分布式文件系统有Google文件系统<GFS>、分布式文件系统<HDFS>、文件系统<KFS>,这3 种分布式文件系统都是基于Google 提出的分布式文件系统理论进行研发的。Google提出的GFS 就是解决其海量数据存储和搜索、分析等问题,而和KFS 是基于GFS 理论基础上实现的开源系统,并且在商业和学术领域得到了广泛的应用。
分布式并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等,使用户不需要考虑这些细节,而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率,还可以降低系统维护的成本。目前典型的分布式计算框架有:
MapReduce 是提出的一个并行计算框架,它可以在大量PC 机上并行执行海量数据的收集和分析任务。它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决方案编码,并封装在了一个库里面,使用户只需要执行数据运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。同时它又对上层应用提供良好简单的抽象接口。MapReduce 主要应用在搜索、数据仓库、数据挖掘领域。
Pregel 是Google 提出的迭代处理计算框架,它具有高效、可扩展和容错的特性
.
7 / 32
,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel 的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB 搜索等相关领域。
Dryad 是微软硅谷研究院创建的研究项目,主要用来提供一个基于Windows 操作系统的分布式计算平台,总体用来支持有向无环图类 型数据流的并行程序。微软于年宣布,停止对Dryad 进行版本升级,转投Hadoop 即MapReduce 计算框架。
目前业界开源的云计算平台包含HDFS 和MapReduce,为海量数据挖掘平台提供完备的云计算支撑平台。

1自动分类技术
基于容对经过双重过滤处理后的重要舆情自动分类,无需人工干预,准确率达到95%以上。先设置分类关键词,每一个关键词都设置一个相应的优先级分值。对收集到的文章容进行分析,分别对标题和容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。
2自动聚类技术
基于相似性算法的自动聚类技术,自动对海量的无规则文档进行归类,
.
8 / 32
把容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。
3相似性排重技术
采用"文章相似性技术"根据文档容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算,得出文章相似度,"已处理",无需再进行任何操作,相似度位于 - 之间的相似文章需要用户在页面进行再次确认,确保文章无漏

网络舆情监测项目设计方案 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数32
  • 收藏数0 收藏
  • 顶次数0
  • 上传人799474576
  • 文件大小35 KB
  • 时间2022-02-17