第一章项目的背景及必要性
项目背景
近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到巨大作用。如“”汶川特大地震中传统媒体与新媒体的充分联动,又如“”甬温线系统陷入一个网站内部,不利于搜索比较靠近网站首页的网页信息,因此一般采用先广搜索算法采集网页。WetW络爬虫系统首先将种子URLM入下载队列,然后简单地从队首取出一个URLT载其对应的网页。得到网页的内容将其存储后,再经过解析网页中的链接信息可以得到一些新的URL将这些URL*口入下载队列。然后再取出一个URL对其对应的网页进行下载,然后再解析,如此反复进行,知道遍历了整个网络或者满足某种条件后才会停止下来。
云计算技术
分布式计算是解决海量数据挖掘任务,提高海量数据挖掘的有效手段之一,在理论和实践上已经获得证实。分布式计算包含了分布式存储和并行计算两个层面的内容,而云计算平台提供了分
布式文件存储和并行的计算能力,因此很好地解决了这两个层面的内容。
下面主要分析几个主流的分布式文件系统和分布式并行计算框架,以更好地构建云计算数据挖掘平台的核心支撑能力。
分布式文件系统有效地解决了海量数据存储问题,并实现了位置透明、移动透明、性能透明、
扩展透明、高容错、高安全、高性能等关键功能。目前业界比较流行分布式文件系统有Google文
件系统(GFS)、分布式文件系统(HDFSb文件系统(KFS),这3种分布式文件系统都是基于Google提出的分布式文件系统理论进行研发的。Google提出的GFS就是解决其海量数据存储和搜索、分
析等问题,而和KFS是基于GFS®论基础上实现的开源系统,并且在商业和学术领域得到了广泛的应用。
分布式并行计算框架对于高效完成数据挖掘计算任务极其重要,并且它对分布式计算的一些技术细节进行了封装,例如数据分布、任务并行、任务调度、负载平衡、任务容错、系统容错等,使用户不需要考虑这些细节,而只要考虑任务间的逻辑关系。这样不仅可以提高研发的效率,还可以降低系统维护的成本。目前典型的分布式计算框架有:
MapReduc更提出的一个并行计算Ig架,它可以在大量PC机上并行执行海量数据的收集和分析任务。它把如何进行任务并行执行、如何进行数据分布、如何容错、网络带宽时延等问题的解决方案编码,并封装在了一个库里面,使用户只需要执行数据运算即可,而不必关心并行计算、容错、数据分布、负载均衡等复杂的细节。同时它又对上层应用提供良好简单的抽象接口。MapReduce^
要应用在搜索、数据仓库、数据挖掘领域。
Pregel是Google提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WE睡索等相关领域。
Dryad是微软硅谷研究院创建的研究项目,主要用来提供一个基于Windows操作系统的分布
式计算平台,总体用来支持有向无环图类型数据流的并行程序。微软于年宣布,停止对Dryad进行版本升级,转投Hadoop即MapReduce^算框架。
目前业界开源的云计算平台包含HDF辞口MapReduce为海量数据挖掘平台提供完备的云计算支撑平台。
舆情智能分析技术
1)自动分类技术
基于内容对经过双重过滤处理后的重要舆情自动分类,无需人工干预,准确率达到95犯上。
先设置分类关键词,每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析,分别对标题和内容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。
2)自动聚类技术
基于相似性算法的自动聚类技术,自动对海量的无规则文档进行归类,把内容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。
3)相似性排重技术
采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键字比较计算,得出文章相似度,“已处理”,无需再进行任何操作,-,确保文章无漏处理。
自然语言智能处理技术
1)自动分词技术'":'
以词典为基础,规则与统计相结合的分词技术,有效解决切分歧义。综合运用基于概率统计的语言模型方法,分词准确性达到99%。
2)自动关键词和自动摘要技术
对采集到的网络信息,自动摘取相关关键字,并生成摘
网络舆情监测设计方案 来自淘豆网m.daumloan.com转载请标明出处.