琯,瑃聇—琒,.专甌,,,.,琣甋琾琤.,.‘‘’’甀瑃甌瑃.,—.篢,Ⅱ
学位论文作者签名:腑答字日期:瓿щ纅日学位论文作者虢月循签字目其:少年厂月歹签字魄产邢/日独创性声明学位论文版权使用授权书本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得天津财经大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解天津财经大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权天津财经大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文,C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ学位论文作者毕业后去向:工作单位:通讯地址:导师签名:电话:邮编:
绪论第研究背景及意义信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临文本分类主要是用获取的规则来对文本进行标引和分类,它作为知识的组织工具,最初被应用到文献分类、图书馆分类、公文和专利的分类等领域。自动分类技术的出现为模域,使得文本分类得到了越来越广泛的应用,如大型网络检索系统、文档管理、数字图书们提供了便捷的知识组织和获取途径。因此,对文本分类的研究具有重要的实用价值。文本自动分类技术的研究目标就是实现文本分类的自动化,现已广泛应用于信息检索成熟,出现了很多文本分类的软件,而国内关于中文文本分类的研究由于起步较晚,相关上技术上也还不成熟,但是中文是世界上使用人数最多的语言,而且随着信息时代的到来和知识经济的全球化,中文信息急剧增加,中文信息的利用率越来越大,其作用已经变得举足轻重。因此,对简单高效实用的中文文本分类进行分类和研究,提高中文文本自动分本章的主要内容包括:指出了本文的研究背景;介绍了本课题国内外的研究状况;简要介绍了本文所用文本分类的算法,即粗糙集和支持向量机相结合的文本分类方法;阐述了本文所做的主要工作。文本分类畛跏怯π畔⒓焖虺傧低车囊G蟪鱿值摹C娑耘哟蠖壹本缗蛘偷男畔⒑Q螅绾斡行У刈橹凸芾碚庑的一大挑战。因此,对文本信息进行组织分类,从而简化用户检索时对文本的存取和操作已经成为适应当代信息迅猛发展的迫切要求,所以,对文本分类的研究和应用开始逐渐兴起。式识别和机器学习②峁┝搜芯坑胗τ玫男铝馆中的文本归类系统、信息过滤系统等,这些系统已广泛应用到了生活的方方面面,为人信息过滤文本数据库数字化图书馆等领域,国外关于英文的文本分类技术己经研究的比较技术有待进一步提高,随着中文环境下的用户数目的爆炸式增长,中文信息越来越丰富,使中文信息处理愈加成为需要迫切解决的问题。中文在构词成句上比英文复杂的多,理论①甅②瓵瓵甌:,:,:
国内外研究状况分类是数据挖掘中一项非常重要的任务,应用广泛。分类是一个从现有的带有类别标签的数据集中寻找同一类别数据的共同特性,并以此将它们进行区分的过程。分类的目的是学会一个分类函数或分类器,该函数能把数据源中的数据项映射到给定类别中的某一个。分类可用于预测,其目的是从历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。用于分类问题的方法可以分为两类:符号主义文本自动分类始于年代末。,他的主要思想是将词频统计用于分类。年代初,贘,提出了关键词自动分类技术。不久,瓸等人提出利用因子分析法进行文献的自动分类。随后至今,许多学者在这一领域进行了一系列卓有成效的研究。它的发展从开始的基于知识的途径到基于机器学习的途径。年代,最有效的是基于知识工程技术的分类系统,它是由专家人工构建的,其典型应用就是卡内基集团为路透社开发的系统,这种系统需要领域专家人工归纳出分类规则,再由这些规则指导知识工程师协同工作,两者缺一不可。基于知识的分类系统需要大量的人力物力,且适虺芀凇⒋植诩虺芐⑶医庑┓掷嗉际醮永砺垩芯恳类研究的基础上,结合中文文本的特点采取相应策略,形成针对中文文本的分类系统。国内中文文本分类中较流行的方法主要集中在朴素贝叶斯、凇⒋植诩椭С窒蛄炕类的效率已经成为促进我国经济发展和国际知识交流的迫切要求,具有重要的现实意义。方法和连接主义方法。戏⒈砹擞泄刈远掷嗟牡谝黄B畚摹癘应性差。年代以后,基于机器学习的分类技术开始取代基于知识工程的方法成为主流技术。在这些年的发展中,研究者们提出了多种分类算法,主要有朴素贝叶斯简称蕖近邻虺芌和支持向量机入到了实用化阶段。国内的文本分类起步相对较晚,始于世纪年代,研究所使用的方法也比较单一,对中文文本进行分类。从年
基于RS-SVM中文文本分类研究 来自淘豆网m.daumloan.com转载请标明出处.