A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree for the Master of Engineering Research on Document Clustering Algorithm Based on K-Means Candidate : Zhou Junquan Major : Software Engineering Supervisor : Assoc. Prof. Wu Jianjie Huazhong University of Science and Technology Wuhan 430074, P. R. China January, 2014 万方数据独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名: 日期: 年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□, 在年解密后适用本授权书。不保密□。(请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年月日日期: 年月日本论文属于万方数据 I 华中科技大学硕士学位论文摘要人们面对大量文档时,希望对文档按类别进行处理。针对组织和整理科技论文, 提供导航、检索的便利,在学习科学技术、从事科研工作、开展学术交流活动时提高效率、避免重复劳动的需求,研究了科技论文的聚类分析,阐述了文档聚类的相关技术、主要的文档聚类算法、改进的K-Means算法的设计、改进的特征筛选方法的设计。在各种聚类算法中,K-Means算法是简单、快速、效果不错的算法。然而,与此同时,K-Means聚类的初始簇中心对聚类结果影响较大,可能导致局部最优,从而使聚类结果质量较差且不稳定,通过研究,提出使用Canopy算法作为聚类的预处理步骤,使聚类的初始中心分布较为分散,以优化聚类结果的质量。针对科技论文的特点,选择合适的向量化方法和距离测度,在一般性的分词、去停用词的基础上,研究分词结果、对论文常见无意义的词的处理和论文标题、摘要、关键词等字段的权重处理等特征筛选方法,使特征向量更准确地表达文档的主旨内容。开发Java程序对结果进行验证,包括文档处理、特征筛选以及聚类算法部分, 文档处理和特征筛选部分实现了一般性的特征选择方法和研究得出的新的特征筛选方法,聚类算法部分实现了传统的K-Means算法及使用Canopy算法进行预处理改进的K-Means算法。选取文档数据,将论文的标题、摘要、关键词作为测试文档内容, 对文档进行预处理并进行聚类分析。测试的结果证明了在特征筛选和聚类算法上的改进有一定的作用。关键词:文档聚类 K均值算法 Canopy算法特征筛选万方数据 II 华中科技大学硕士学位论文 Abstract When people are faced with a large number of documents, they hope to deal with them by category. For organizing scientific papers, providing navigation and retrieval convenience in learning science and technology, doing research work and carring out the academic exchange activities, and improving efficiency and avoid duplication of effort, study on clustering analysis of scientific papers is needed,the relatedtechnology of clustering, the main documentclustering algorithms, design of the improved K-Means algorithm anddesignof th
基于KMeans文档聚类算法的研究 来自淘豆网m.daumloan.com转载请标明出处.