,,.
中南林业科技大学作者签名:阈瞬%学位论文原创性声明学位论文版权使用授权书闖月日作者签名:癌蠢如协年《月≥本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品,也不包含为获得中南林业科技大学或其他教育机构的学位或证书所使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式表明。本人完全意识到本声明的法律后果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件或电子版,允许论文被查阅或借阅。本人授权中南林业科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于:保密口,在年解密后适用本授权书。不保密口。肽谝陨舷嘤Ψ娇虼颉导师签名:‘
摘要其来源的特点后,针对现有的网络舆情信息的采集技术存在的不足提出了改进方互联网飞速发展,网民规模不断增加,新型媒体不断涌现,使得网络舆情成为一股强大的舆论力量,影响着社会热点事件的发展,如果不能正确的引导,将严重威胁到社会公共安全。所以,挖掘网络舆情,将对搭建文明网络,稳定社会秩序,促进国家发展做出贡献。网络舆情挖掘大致包括舆情采集、话题发现和分析预测三步。其中,网络舆情数据的采集是重中之重,因为只有及时地采集到真实、可靠、完整的网络舆情数据,才能保证之后的深入分析真实、可靠、具有实际指导意义。本文主要研究的就是网络舆情数据采集技术,在分析了网络舆情及法。首先,网络舆情采集的工作是采集到同一主题事件网民言论,可以采用主题爬虫来实现。主题爬虫能够提取相关唇樱げ庀乱徊脚廊〉牧唇樱佣效地抓取与目标主题相关度高的网页,但是现有的主题爬虫在及时性和完整性上达不到舆情分析的要求,本文通过文献学习,理论上认识到使用隐马尔科夫模型琀傅纪缬咔椴杉强尚械模⒍韵钟蠬爬虫进行分析,针对其不足,从网页训练集聚类策略、主题相关度判别算法和建模方式三个方面提出了改进的方法,用来提高莱娴男阅躠其次,网络舆情的栖息地是微博、博客、论坛和新闻评论这样的新型网络载体,大多都采用了异步交互的技术来提高用户体验,导致传统爬虫无法采集到这些动态生成的信息,大大降低了网络舆情采集的覆盖率,为了解决这一问题,本文在莱嬷性黾恿薃趁媾廊〉ピ#靡酝瓿葾趁娴耐络舆情采集工作,完成了本文莱娴纳杓啤最后,研究了开源系统ǜ慕蟮哪芄慌廊趁娴腍爬虫蚇系统结合使用,替换掉低吃械呐莱嫦低常搭建了实验模型,列出了实验环境和详细的实验步骤,进行了对比实验,验证了本文理论的准确性和有效性,证明了本文设计爬虫不但具有重要的理论价值,而且有广阔的应用前景。关键字:籄网络舆情采集;爬虫
’琲,瑆甀,琾甆,.琾琤,,,.,.·,.瓸琣瑃,産琤珺甌,痶
,,:,琣甌,琤.
基于隐马尔科夫模型的网络舆情挖掘 来自淘豆网m.daumloan.com转载请标明出处.