下载此文档

基于K平均算法的文本聚类系统研究与实现(可复制论文).pdf


文档分类:IT计算机 | 页数:约65页 举报非法文档有奖
1/65
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/65 下载此文档
文档列表 文档介绍
要摘基于文本内容的自动文本聚类技术得到了空前的发展,引起了人们普遍的关注。文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重行了研究,包括中文文本预处理、文本聚类,对文中所述方法进行了实验分析,预处理的特征表示与特征选择进行了探讨,本文采用向量空间模型接着,针对中文文本的聚类,本文采用了基于黄骄惴ǖ亩挝谋揪劾值实现的:而初始聚类中心的选择是通过基于样本密度的方法实现的。并且,通过实验说明了采用这两种方法确定初始参数的可行性。对于首次聚类的结果,若某个簇包含的样本个数大大超过其它簇的样本个数,则对该簇再次进行聚类。关键词:文本聚类,正向最大匹配,骄惴ǎ掷O凳随着国际互联网和企业内部互联网的飞速发展,各种电子文本数据的数量急剧增加,如何快速有效的获取、管理和使用这些文本数据,已经成为信息系统学科迫切需要解决的重要问题。近年来,作为解决这些问题的基本工具之一,要应用,文本聚类已经成为一个研究热点。本文以中文文本作为文本聚类的挖掘对象,并对中文文本聚类的全过程进并设计了一个系统,实现了文本聚类的功能。本文首先介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。其次,分析研究了文本的预处理过程,重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本初切分,结合退一字回溯扫描的方法发现歧义字段,对歧义字段的处理采取的是基于统计词频的方法。对文本文本进行表示;而文本的特征选择则采用拦篮方法:先对文本集采用黄骄惴ń芯劾啵渲校问齥的确定是通过计算在一定范围内,〔煌档那榭鱿拢谷逖镜愕钠骄掷O凳畲蠡膋最后,设计了一个文本聚类系统,测试了本文设计的中文文本二次聚类方法的聚类效果。测试结果表明,该系统能够达到将同类文本聚类的目的。武汉理工人学硕宦畚
知识水坝***@pologoogle为您整理
,瑃武汉理工人学硕士学位论文,琄—琒..甀,瑆,,,琭甀瓼,瓵,.,.,篢琱琣..畉瑄,甌.Ⅱ,
知识水坝***@pologoogle为您整理
签名:兰咝堕导师签名:圭丑独创性声明签名:鳖塑堕关于论文使用授权的说明日期:型&迹呵期:矽崆·迹核本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何C艿穆畚脑诮饷芎笥ψ袷卮斯娑究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。
绪论第研究的背景随着计算机技术和计算机网络技术的发展,信息化程度快速增长,人们利却饥饿于知识”的挑战。“如何才能不被信息的汪洋大海所淹没,从中及时发现数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。立模型和发现数据间关系的过程,这些模型和关系可以用来作出决策和预测【。数据挖掘是用于大规模数据处理的一种新的思维方法和技术手段,它是在术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现隐藏在大型数据库中种学科的理论、方法与技术,已经在商业、企业、政府、科研及体育等多种不挖掘技术也已经潜移默化的参与到人们生活质量的改善过程中【。随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,络信息均文本形式出现H绾未又谢袢√囟谌莸男畔⒑椭J冻晌0谠谌嗣敲文本挖掘起源于世纪年代的信息检索技术,处理的是非结构化的文用信息技术生产和搜索数据的能力大幅度提高。于是,信息过量几乎成为人人需要面对的问题。有人称现在是信息爆炸的时代,人们面对着“被数据淹没,有用的知识、提高信息利用率”是人们迫切需要解决的问题。数据挖掘技术就是在这样的背景下应运而生和蓬勃发展,并越来越显示出强大的生命力。一般来说,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建现实生活中各种数据量呈指数级不断增长,以及以数据库技术为核心的信息技的规律和模式,它融合了人工智能、统计、机器学习、模式识别和数据库等多同类型的组织机构和领域中获得了非常广泛的应用。即使在日常生活中,数据丫⒄刮5苯袷澜缟献畲蟮男畔⒖夂腿蚍段诖úバ畔⒌淖钪饕G道。在中国互联网络信息中心年鹿ú嫉闹泄チM绶⒄棺纯鐾臣票ǜ嬷邢允荆%的网前的一道难题。文本挖掘已经成为数据挖掘中一个日益流行而重要的研究领域。武汉理:大学硕士学位论文,
卣鞒槿 N谋咎卣鞣治R话闾卣骱褪痔卣鳎渲校话闾卣髦饕特征是概念的

基于K平均算法的文本聚类系统研究与实现(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数65
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mkt365
  • 文件大小0 KB
  • 时间2013-11-11