下载此文档

基于文本相似度计算的文本聚类算法研究与实现-计算机应用技术专业毕业论文.docx

文档分类：IT计算机 | 页数：约65页举报非法文档有奖

1/65

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/65 下载此文档

文档列表 文档介绍

学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用己在文中指出,并与参考文献相对应。除文中己注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者(签字):训轰日期: h,o年每月,f日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(口在授予学位后即可囱在授予学位12个月后口解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字):砖』氖导师(签字):稚吱貘日期: p·o年≥月,]日如,o年专月,7日哈尔滨工程大学硕七学位论文摘要文本聚类是知识挖掘领域中一个非常重要的技术手段,对于文本信息挖掘、知识检索有非常重要的作用。在实际工作中,一些政府部门需要浏览大量的文字信息,根据这些信息制定相应的预案。但是有限的人力同海量的信息比起来,让人们在处理这些信息上显得力不从心。这时我们需要一种技术,能够帮助人们快速的实现文本分类工作,增加文本信息处理的效率。本文设计了一个文本聚类系统的框架,并详细分析讨论了系统中各子模块的设计和实现。本文主要在以下方面进行研究:,针对这个问题本文设计一个关键词概念列表作为文本表示模型。本文认为准确抽取文章中的关键词即可把握文章的主旨内容,并运用某种规则计算这些关键词的权重,从而将半结构化的文本转换为结构化模型。,自动构建一个能作为语义支持的语义库,以文本表示模型为索引,结合原文形成一组能代表文本主题的关键句群,计算文本的表层相似性、语义相似性及词序对相似度的影响因子,将这些方法做加权和生成两文本的相似度。。该方法适当调整文本聚类判别条件,能够强化簇内数据对象间的关系强度。最后基于上述设计与算法,建立一个文本聚类系统,并通过实验分析证实了本文的研究结论和推导具有可行性。关键词:数据挖掘;文本相似度;,thegovernmentdepartmentsmakesomepreplansbasedOlltheviewpointsafterscanningmasstext—,,,(points)areasfollows:,andsemi-putetheweight

基于文本相似度计算的文本聚类算法研究与实现-计算机应用技术专业毕业论文来自淘豆网m.daumloan.com转载请标明出处.