基于支持向量机的谋就诰蚣际跹芯类器中盼胜能进行了对比。摘要体系结构、算法等展开了研究。本文基于支持向量机椒ǘ訵挖掘中的文本挖掘问题展开了研究。作为一种小样本情况下的新的通用学习方法,丫谕枷蟠怼⑽谋敬怼⒂镆舸淼攘煊虻玫搅斯泛应用,表现出很多优于已有方法的性能。我们在中文谋就诰虻并研究了如何用椒ɡ唇刑卣鞒槿。〉昧吮瘸9娣椒ǜ玫氖接有助于提高整个系统的泛化能力,减少过量匹配的发生,最终提高学习的精度。实验结果表明,我们的方法是比较有效的。第三,通过概括支持向量集的特点及其在增量学习过程中的变化,我们分析比较了几种现有的隽垦胺椒ǎ⒍运窃谥形耐撤第四,研究了一种基于模糊隶属关系预抽取训练样本的方法,得出的结论是这种方法不仅相对简单,而且在保证分类器性能的情况下,可以允许我们适当地选择训练样本,减少支持向量,从而提高难盗和测试速度。推进作用,而基于中文的谋就诰蛳低郴勾υ谘芯恐小N颐窃谏述研究的基础上,并根据实际的研究和实用需要,实现了一个初步的性能较好的中文谋就诰蛳低砏?榛纳杓剖蛊涓在畔ⅰ⒋罅砍涑獾慕裉欤琖挖掘已成为一个极具潜力的研究方向。一些国际会议已经举行了有关诰虻淖ㄌ馓致郏云淅砺邸背景下,研究了用刑卣鞒槿⒂眯檠疽胂妊橹J兑约霸隽学习等关键问题,取得了~定的成果。主要工作包括:第一,对比了殖S锰卣鞒槿》椒ㄔ谥形腤文本挖掘中的性能,验结果。第二,对于类别分布不均匀的文本集的分类问题,我们提出采用人工生成虚样本的方法引入先验知识,这一方面可以减少对己标记文本的需求,另一方面,如果在学习过程中引入了有助于学习的先验知识,:降直第五,谋就诰蛳低车目7⒍訵文本挖掘的研究有着很大的于扩展。
知识水坝***@pologoogle为您整理
第六,作为课题之外的工作,我们还研究了贑ㄐ畔统中多用户检测问题上的应用。实验结果表明,基于亩嘤没Ъ觳抽取、文本分类等关键问题中的应用,并在研究的基础上,初步实现了关键词:支持向量机诰蛭谋就诰蛲撤掷算法误码率性能要优于线性最小均方误差算法。本文的主要贡献在于研究了椒ㄔ谥形腤文本挖掘的特征一个性能较好的中文谋就诰蛳低常:笮难芯康於嘶
知识水坝***@pologoogle为您整理
瓸..甋甒騈甒産玝琤甋,..
甅,簊,..
杰。篇墨垄鲤美日期臁晡日期:,。边垡么关于论文使用授权的说明独创性虼葱滦声明。瓢傈密论文注释:本学位论文满于保密在一年煞密焉适孺本援投书。菲保密论文注强期:.茅越童.≤:耋主本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所强,除了文中蹙别加以标注署硅致谢中所罗列驰内容以乡畚闹胁幌己渌已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书面使用过的材料。与我一凰工作的同志对本研究所傲的任何贡献均已在论文中申请学位论文与资科装有不实之处,本人承攫一切楣关责任。学位论文作者完全了勰北京邮电大学有关保甓和使用学位论文的规定,即:研究生在校攻读学位黧澜论文工作的知识产投荦位耩京都电大学。学校有权保留并离国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阕;学校可以公布学位论文的全都或部分内容,可以允许采胄坝⑺跤』蚱渌捶侄伪4妗⒒编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑释:本学位论文不属于保密范围,适用本授权书。作了明确的说明并表示了谢意。导拜签名:本人签名:本人麓名:
第一章绪论论文的研究背景蕴含着具有巨大潜在价值的知识,人们迫切需要能够从峡焖佟⒂行У胤⑾肿数据挖掘的一个新主题,引起了人们的极大兴趣。发也各有其侧重点。例如,有人认为,诰蚓褪抢檬萃诰蚣际酰远卮油网络信息内容的开发。文献】从更一般的角度出发,对诰蜃龀隽巳缦露ㄒ澹定义篧挖掘是指从大量牡档募螩中发现隐含的模式H绻玞看作输入,将醋魇涑觯敲磜挖掘的过程就是从输入到输出的一个映射传统的数据挖掘相比,诰蛴钟泻芏嗟亩捞刂ΑJ紫龋琖在逻辑上是一个由文档节点和超链接构成的图,因此诰蛩玫降哪J娇梢允枪赜赪内容的,也可以是关于峁沟摹F浯危瑆曲挖掘的对象是大量的、分布的、异质的文档,它们是结构化的或半结构化的,数据量巨大,增长迅速,并且具有机器难以理关系来发现知识,很少有处理弦熘实摹⒎墙峁够畔⒌墓ぷ鳌R虼讼钟械氖自从有了互联网和榔鳎颐窍衷谝丫梢院苋菀椎卮油戏梦实酱罅的文本和多媒体信息。但是在该头⒄沟耐保颐且膊荒芎鍪印靶畔⒈ā的问题,即信息极大丰富而知识相对匮乏。在这些大量、异质的畔⒆试粗校源和知识的工具。但是,即使是借助于搜索引擎,要从如此浩瀚的畔⒅姓业令人满意的结果也不是一件很容易的事情。因此,我们需要开发比信息检索层次更高的新技术,能够自动地从网上发现、抽取、过滤出用户感兴趣的信息。诰蜃魑诰蚴且幌钭酆霞际酰婕皐曲、数据挖掘、计算语言学、信息学等多个领域。不同研究者从自身的
基于支持向量机的WEB文本挖掘技术研究(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.