基于稀疏特征的中文微博短文本聚类方法研究.doc基于稀疏特征的中文微博短文本聚类方法研究摘要:微博文本聚类是依据微博主题不同将描述同一类主题的微博文木汇聚到一起的过程。由丁微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微阴•文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。关键词:微博;短文本;聚类;LDA;文本表示中图分类号:TP391文献标识码:A文章编号文章编号:16727800(2014)001013302基金项目基金项目:安庆职业技术学院2013年院级自然科学研究项0(2013ZRKX004)作者简介作者简介:熊祖涛(1978-),男,硕士,安庆职业技术学院电子信息系讲师,研究方向为软件技术。0引言微博是一种通过关注机制分享简短实时信息的广播式社交网络平台。NTC)2013年1月发布的《中国互联网络发展状况统计报告》显示,截至2012年12月底,,,%,微博已成为中国互联网第二大舆情源。而对数量庞大的微博舆情数据,依靠传统人工统计分析方法已经力不从心。因此,利用技术手段,通过建立合适的微博文本表示模型,运用聚类分析方法,获取舆情热度和舆情倾向信息,实现微博舆情的实时监测就显得尤为重要。,并按照一定的规则进行形式化处理的结果。冃前的文本表示模型主要有向量空间模型(VectorSpaceModel,VSM)>N-gram语言模型、类短语串模型、概念模型、图模型、事件模型等。向量空间模型因其表示方法简单、有效,应用最为广泛。向量空间模型将文档表示为特征空间中由一组特征项(T1,T2,…,Tn)构成的特征向量,特征项Ti通常是与文本分类有关的字、词或短语。每一个特征项Ti表示文本的一个维度,并根据Ti在文档中的重要程度赋予一定的权重Wi。所有文本可以用特征向量(T1,W1,T2,W2,…,Tn,Wn)表示。利用向量空间模型,文本内容被简化为特征项与权重的向量表示,文本的处理被简化为向量运算,极大地降低了文本处理的难度。鉴于向量空间模型的突出优势,为了能对中文微博文本数据进行有效的分析和处理,我们将微博文本用这一模型表示。,需耍通过特征降维方法,如文档频率、信息增益、CHI统计量、互信息或期望交叉爛等,对文本表示所形成的初始高维特征集作降维处理,并根据一定的标准将特征集中的特征词赋以一定的权重。特征权重的计算方法有布尔权重、绝对词频权重、归一化词频权重、TFTDF权重等。其中,TFIDF(TermFrequencyInverseDocumentFrequency)方法是冃前研究和应用最为广泛的权值法之一。TF-IDF权重的计算可表示为公式(1):wik=TFikXlog(Nnk+)(1)公式(1)中,TFik表示词条Tk在文档di中出现的频数,nk表示含有词条Tk的文档数,N表示全部训练文本中的文档数。通常情况下,由于待处理文本集中文档长度不一样,难以准确比较,为了更好地表示文本特征,还要对文本特征向量作归一化处理。此时,权重计算可表
基于稀疏特征的中文微博短文本聚类方法研究 来自淘豆网m.daumloan.com转载请标明出处.