基于句子相似度的文本聚类.doc毕业设计(论文)题目:基于句子相似度的文本聚类毕业设计(论文)任务书毕业设计(论文)评语内容摘要(400〜600字(中文),中英文)义本聚类随着互联网文本的激增以及实际应用中的需求,引起了人们越来越多的重视。文本聚类是自然语言处理研究中一•项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。文本聚类是-•种典型的无指导学习,通过使用聚类方式将文本聚类到各个类别中,从而达到自动识别其类型的效果。作为一种无监督的机器学习方法,聚类山于不需要训练过程,以及不需要预先对文档手工标注类别,I大1此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。文章以实现了一个基于句子相似度的文本聚类算法为基础,介绍了句子相似度的计算方法以及一个k-means改进算法,详细说明了IF-TDF以及余弦定理的计算与应用。通过介绍如何通过IF-TDF计算句子相似度,为文本聚类的实施提供了准备工作和必要条件。k-,k-,使用改进的中心点选择、稀疏矩阵归类方法的k-means算法,并在一•些细节实现上进行改进。对真实文本数据的测试中表明,改进后的算法相比较于标准的K-means算法更在文本聚类更有效。关键伺:自然语言处理;句子相似度;聚类算法;K平均值算法,,,WebMining,,clusteringdoesnotrequiretraining,anddonotneedtomanuallypre-markedonthedocumenttype.,Ithassomeflexibilityandautomationofhigherprocessingpower,anizations,animportantmeansofabstractandnavigation,,introducedthecalculationofsentencesimilarityandak-meansAlgorithm,detaileddescriptionoftheIF--TDFsentencesimilarityfordocumentclustering,providespreparationandimplementationofthenecessaryconditions,k-meansclusteringalgorithmisaclusteringalgorithminoneofthemostwidelyused,inthetextclusteringproblem,k-,usingtheimprovedthecenterofchoice,sparsematrixclassificationmethodk--meansclusteringalgorithmismoreeffectiveinth
基于句子相似度的文本聚类 来自淘豆网m.daumloan.com转载请标明出处.