基于LSTM自动编码机的短文本聚类方法摘要:一种基于文本向量化的短文本聚类方法。该方法以词向量作为基本特征,使用基于LSTM的自动编码机,对表征文本的词向量进行压缩编码,从而将文本不定长的词向量特征统一提取为统一输入长度的文本特征向量。这些文本特征向量的聚类结果即为短文本的聚类结果。对这一方法使用带标注的数据集进行了测试,使用基尼非纯度作为指标衡量该方法的聚类效果与人工聚类的拟合度;同时,使用聚类中心平均距离来衡量聚类结果中句子之间的结构相似度。结果表明,该方法更着重于匹配整体的文档结构,得到的聚类的句子间的结构相似度较高。本文采集自网络,本站发布的论文均是优质论文,供学习和研究使用,文中立场与本网站无关,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息,如果需要分享,请保留本段说明。关键词:自然语言处理;短文本;聚类;长短期记忆网络;自动编码机中图分类号:TP183文献标识码:A Abstract:Ashorttextclusteringmethod,whichisbasedontextvectorization,,,,,thismethodisfocusedonmatchingthestructuralinformationofthetext,astheresultgotarelativelyhighsimilaritywithinthecluster. Keywords:naturallanguageprocessing;shorttext;clustering;work;autoencooder 1引言在自然?Z言处理的应用领域中,文本聚类是一个重要的任务。通过文本聚类,可以根据文本内容的性质对海量文本进行初步的划分,为后续如数据挖掘、标签化处理、知识图谱等一系列的应用提供一定的信息。同时,文本聚类的结果对一些业务本身,诸如客服回复、病例整理等存在参考价值。在文本聚类中,以词在文档中的出现情况作为特征维度,组建特征向量并进行聚类的方法是一类较经典的方法。该类方法依赖于两个文档之间共有词的比较,需要对文档中词的出现情况进行编码,并比较两个编码后的向量。在该类方法中,较经典的文档编码方法是直接将词出现情况进行编码的词袋(Bagofwords)方法[1]以及进一步衍生的以词频-逆向文档频率(TermFrequencyInverseDocumentFrequency,TFIDF)作为权重的编码方法。使用当文本长度较长时,文本间存在足够多的相同词汇,得到的表征文本的特征向量较稠密,能够较好地应用于文本聚类上。然而,短文本(通常在10~100词之间)聚类问题因其文本长度短,基于词出现情况生成的词袋向量非常稀疏,词和词之间的重合率较低,容易由于同义词/近义词的语义鸿沟现象产生相似度漂移,传统的聚类方式效果差强人意。另一方面,词袋模型在操作时并没有考虑文本的结构信息(SemanticInformation)。虽然改进的词袋模型使用n元(ngram)词能够保留部分结构信息,但并非完整的结构信息。针对于短文本易受同义词影响的特性,可以使用词向量(Wordvector)作为基础特征。近义词和同义词的词向量具有高相似度,可以利用这一特性,解决原先在词袋模型中,同义词无法识别的问题。使用词向量作为基础特征、LSTM整合处理的组合方法能有效地对文本内在含义进行抽取,这一点已经被最近的一些自然语言推断(NaturalLanguageInference)方法充分证明了[2][3]。因此,可以使用类似的方法,将词向量按顺序输入到LSTM网络中转化为最终的文本向量,并使用经典的Kmeans方法进行聚类。在文本向量的生成过程中,为了最大限度地保留有效信息,使用自动编码机
基于LSTM自动编码机的短文本聚类方法 来自淘豆网m.daumloan.com转载请标明出处.