下载此文档

中文文本聚类的研究与实现(可复制论文).pdf


文档分类:论文 | 页数:约51页 举报非法文档有奖
1/51
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/51 下载此文档
文档列表 文档介绍
:斜厶日期蚷幸竺签名:猛窒整本迳鳎核拷坏穆畚氖俏腋鋈嗽诘际χ傅家徊稨进行的研究白骷叭∪煅芯砍扇佟>∥宜!3了刑乇鸺右员曜⒊衶致谢的地方外,论文中不包含其他人已经发表戚撰‘写的研究成果,也不包禽为获得北京邮电夫学或其他教育机构能学位或证:强所使糟过的材辑。与我一间工作静阉志对本研究所做的任何羹献均融在论文中做了明确的说明并袭示了谢意。关予论文使技校麓谎瞑本人完全了解北京邮电犬学有关保留、使瑚学位论文的规定,即:学校有权保留送交论文的复印件,允许论文渡褒翔和借耀;学校可以公葶嚣论文麴全部袋部分内窬,可以采明影、缩印或其他复制手段爆勖艿穆畚脑诮饷芎罄茸裱斯娑独创蛙说甥存论文。一
知识水坝***@pologoogle为您整理
杂贙聚类的最佳笛≡窠辛耸笛檠芯亢头治觥本文就文本自动聚类技术的发展及现状进行了系统的回顾,然后,针对社科领域的文本聚类进行了较为深入的探讨与研究,实现了两个实验系统。本文的工作重点足:捎昧薎聚类方案,并与桨附斜冉希诖嘶∩鲜迪至肆街植煌聚类方法的实验系统。杂谖谋揪劾嘞低程卣鞒槿〉奈∪∥侍饨辛耸笛楹吞教郑隽吮冉虾侠淼娜杂谖谋揪劾嘞低持杏锪峡庵柿坑胛谋揪劾嘈Ч墓叵担辛耸笛檠芯浚⒍允笛结果给出了合理的解释。握瘴谋痉掷啵⑹粤嘶诓槿屎筒樽悸实钠兰鄯椒ǎ徊握帐菥劾啵⑹粤嘶“核”的评价方法。杂诹街植煌木劾喾椒ㄔ谠诵惺奔洹⒕劾嘈Ч⒕劾嗥兰鄣确矫娼辛颂教帧文本自动分类,文本聚类,文本预处理,重评价,劾嗨惴ǎ琄算法值区间。关键词:文本表示,特征抽取,权
知识水坝***@pologoogle为您整理
,琫琖,,琣,篈猰,.,,琓瑃
,非结构化的文本信息更加丰富与繁杂。聚类分析作为一种数据挖掘的重要手段,在文本挖掘中也扮演着非常重要的角色。本文对文本聚类问题进行了研究和文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。利用文本分类技术可以对大量的文档进行快速、有效地自动分类。目前,文本分类的算法有很多种,比较常用的有蚇等方法。随着科学技术在深度和广度上的不断发展,科学文献在世界各地相继出现了许多引人注目的特点:在出版种类、出版数量、出版速度各方面飞速增长;文献的分布极其分散;文献语种迅速增多;各种文献之间彼此交叉、重复日益严重;文献新陈代谢越来越快。与此同时,在科学领域,另一种趋势也日益明显,即:传统的学科界限不断被打破,学科越来越多,越来越细,从而导致对于文献信息需求的不断深入和集中。这两种趋势使得庞大文献资料与特定用户需求之问的矛盾日益尖锐,文献组织的问题在这样的环境随着计算机技术和互联网的应用越来越广泛,信息已经渗入到社会的各个角落。越来越多的个人或学术团体将自己研究领域的成果都放在了网站上。同时,各种娱乐、商业、文化等非学术页面更是多如牛毛。信息急剧丰富而经过加工的知识信息相对匮乏,据估计,丫⒄钩晌S涤猩弦谝趁娴姆植际叫畔⒖占洌艺飧鍪秩在高速增加,在这些大量、异质的畔⒆试粗校毯啪哂芯薮笄痹诩壑档闹J丁人们迫切的需要从峡焖佟⒂行У姆⑾肿试春椭J兜墓ぞ摺综合上述的原因,我们感到对于文本和知识的分类需求越来越紧迫,与数据库中结试验,获得了一些有益的结果。文本聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档的内容相似度尽可能大,而不同簇间文档的内容相似度尽可能的小。等人的研究已经证明了“聚类假设”,即与用户查询相关的文档通常会聚类的比υ硕
———韭塞堂皇查璺堡兰笺焦丝兰—±塞塞查鲞鲞笪婴窒望塞里较近,而远离与用户查询不相关的文档比较分散。在这个基础上,我们比较容易找到与用户关心话题相近酶内容,根据需要适当扩大瘸户豹获取蒎潮。自动聚类与自动分类的关系非常密切,在算法和思想上髑者存在共通之处。出于现在聚类的发展尚不完善,本文在特征值表示、聚类结果评价等各个方面都以分类为参照从发展现状看,对基于内容翰文本自动聚类的研究尚较少,国内的研究者如山西大学等对数字鞠离教继息源微了一赡职究,也取得了一撩成绩,但是对于绦稳化粒文本,实现的并不多。仍宰远劾嘟辛吮冉仙钊氲难芯俊。自幼聚类研究中最重要的概念是文献间豹距离嗨菩,一般可采用欧氏距离法、数量积法、相关系数法、豢数摆戳系数法、夹恁余弦法、最大最小法等怼其定义,在此基础上鑫动聚类浆主要算法主要有:数值矢量法,图分类和逐步聚类法。数值矢量法包括单遍聚类法,小中取大躐离分类法,岛上而下的类剐精化法和密度测试法;图分类包括完全予图分类法和萃链法;逐多聚类法包摆系统聚类法,:劾喾ê桶鬃畲笪沃彰劾所有的聚类算法都需考虑以下三方面因素:聚类时间、次序独立性与重叠度

中文文本聚类的研究与实现(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数51
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mkt365
  • 文件大小0 KB
  • 时间2013-11-12
最近更新