下载此文档

中文WEB文本聚类研究(可复制论文).pdf


文档分类:IT计算机 | 页数:约61页 举报非法文档有奖
1/61
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/61 下载此文档
文档列表 文档介绍
摘要文本聚类是文本数据挖掘的重要技术,它是一种非监督学习,可以由计算机自动进行,不需要人工干预。文本聚类通过比较文本的相似性,能发现文本的内在特征及分布规律,从而获得对文本数据更深刻的理解与认识。本文以中文谋咀魑N谋揪劾嗟耐诰蚨韵螅⒍灾形腤文本聚类的全过程进行了研究。文中分析研究了中文谋揪劾喔鞲龃斫锥危渲邪ǎ褐文谋驹ご怼⑽谋揪劾唷⑿阅芷兰邸在文本预处理阶段的研究中,本文针对文本聚类的特点,提出了一种基于遗传算法的特征选取方法。该方法可以在无先验知识的情况下对特征向量降维,达到降低聚类复杂度,并保持聚类精度的效果。在文本聚类算法的研究中,本文提出一种带孤立点检测的改进甿算法。在该算法中,对文本数据集先进行孤立点检测提取,然后执行聚类,排除了孤立点对聚类的影响。并且在聚类过程中改进了传统的初始聚类中心选取方法,采用基于最远距离的初始聚类中心选取方法,一定程度上避免聚类陷入局部最优。实验证明该算法有很好的适应性,在一些方面优于原来的算法。最后,本文设计并实现了一个中文谋揪劾嗄P停P筒捎媚?榛杓疲实现了中文谋揪劾嗟娜ü獭关键词:文本挖掘;聚类;特征选取;遗传算法;孤立点。
知识水坝为您整理
.,;;籊籌甌瑃猼,琤..:甀疭琲.,.,.廿瓵
知识水坝为您整理
,是本人在导师指导下独立完成的研究成果。本人在论文写作中参考的其他个人或集体的研究成果,均在文中以明确方式标明。本人依法享有和承担由此论文产生的权利和责任。声明人┟:
一轹妒肾吼冲硼芳剐槐C√、使用学位论文的规定。厦门大学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索,有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适用本规定。本学位论文属于C年解密后适用本授权书。朐谝陨舷嘤ê拍诖颉”作者签名:
本文的研究背景第一章绪论隧着/际醯目焖倨占昂脱该头⒄梗髦中畔⒖梢砸苑浅5偷某本在网络上获得。由于在全球互联互透,收集和存储的各种各样类型的数据正在以爆炸性的速度不断地增长。人们对姆梦柿恳菜嬷本缟撸商业咨讯、新闻发毒、热点讨论等等都成为人们上网的理嗽,可以说网络正渐渐地成为人们工作生活中的一部分。与此同时,人们又面对着这样一个矛盾:一方面,系氖莘追蔽咴樱拖褚槐疚匏挥械拇蟀倏迫椋涣硪环矫妫如此庞大的海量数据却让人难以消化,无法从表面上看出他们所蕴涵的有用信息,更不用说有效地指导进一步的工作。如何从大量的数据中我到真正有用的信息成为人们关注的焦点。因此,诰蚣际跤υ硕挖掘是指使用数据挖掘技术在葜蟹⑾智痹诘摹⒂杏玫哪J交蛐畔ⅰ挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器将数据挖掘技术应焉到互联瞒数据上,理论上可行,但是由于互联网自身麓特点,也使它面临~些需要克服的技术难点:チM且桓龈丛拥幕喂故莼肪常萘渴峙哟螅稣庵峙哟蟮氖据还是动态的,并且增长速度惊人。由于各站点闻的信息组织模式不同,要进行数据分析、处理需解决异构数据的集成问题。《趁娴慕峁贡纫话阄谋疚募丛雍芏啵欠植嫉摹⑽藿峁够蛘甙结构的,可以支持多种媒体的表达,风格各异,没有任何规定的排列顺序。由于人们希望通过词迪质澜绺髦中畔⒌幕ネǎ虼艘苍斐闪嘶チM莸母杂性这个特点。露前际醯某鱿郑=饩稣飧瞿烟馓峁┝艘欢ǖ奶跫チM系氖荻约浚趁姹旧淼哪谌莺拖喙氐牧唇泳8隆而互联网面对的客户的背景、兴趣和使用目的也各不相同,访问记录也在频繁的更薪之中,这些都加测了震户行为模式分析的困难度。学习和神经网络等【Α绪论
国内外的研究现状淙凰祷チM闲畔⒑芏啵导事阌没枰5男畔⑷床欢唷S械鞑%的畔⒍杂サ挠没俏抻玫模辽傥颐侵5烂扛鋈酥皇关心虾苌僖徊糠中畔ⅰH绾卧谛畔⒑Q笾胁槐谎兔唬】赡艿卣业接没这些难题推动了发现与利用网上资源的研究工作,使得诰虺晌J挖掘领域的新的研究方向。文本聚类作为诰虻闹匾J侄危梢栽诿挥邢验知识的情况下,完成对谋镜墓槔啻怼1疚脑谡庋谋尘跋拢灾形谋揪劾辔Q芯糠较颉文本聚类是一种有效的文本挖掘方法,能从大量文本数据中发现潜在的知识和规律,它既是一个知识获取技术,也是一种文本处理过程。本文在聚类分析的基础上对中文谋揪劾嘟猩钊氲难芯俊Q芯烤哂邢质狄庖澹首先,文本的聚类处理是文本有效的管理工具。文本在鲜切畔⒆源的一个主要形式,将数据挖掘技术,尤其是文本聚类,引入文本的检索和分类其次,文本聚类是文本挖掘的自身需要。所谓的文本挖掘就是以文本作为数据的处理单元,从文本无序性、多样性、广泛性中找出可以利用的、有一定关系的、作为信息指导性的潜在模式的过程。而在这个过程中

中文WEB文本聚类研究(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数61
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mkt365
  • 文件大小0 KB
  • 时间2013-11-14