万方数据
:
万方数据
学位论文作者签名:谛淞学位论文作者签名:音郴㈣两年∥导师签名:杏学位论文版权使用授权书独创性声明彦川工,石、期:加.!篻签字日期:洳/。∥本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:一年半口意。半年口一年口签字日期:日
万方数据
摘要基于混合特征的中文文本分类研究随着信息技术的高速发展和互联网自媒体时代的到来,越来越多的信息以电子文本的形式存在于互联网上。从海量的网页文本信息中提取准确的、有价值的知识成为信息处理的一大目标。文本自动分类技术作为信息处理领域的研究热点,能够将文档自动按照类别进行组织和处理,较大程度的解决了信息资源的无序性,作为信息检索,信息过滤和搜索引擎等领域的技术基础,有着广泛的应用前景。本文以垂直搜索领域的网页文本主题信息检索做为应用背景,将实现网页文本的精确主题分类作为主要任务,围绕垂直搜索对分类结果集的内容直达性要求更高的特点,设计并实现了基于混合特征的中文文本分类系统,有效的解决了传统网页文本分类结果集直达性能不强的问题。主要的研究内容包括网页结构化信息的获取机制、混合特征模型的建立方法、分类器的训练策略等。在结构化信息的获取上,设计并实现了网页文本自动抽取方法,通过对网页结构的分析,有效过滤了网页中的广告、图片、超链接等噪声,抽取网页中包括标题和正文内在混合特征建模上,将文本信息进行了中文分词等自然语言处理,使用了特征降维算法取得特征词集,改进了特征权重赋值算法,完成了内容特征建模,并验证了改进算法对分类性能的优化能力;同时提出了由网页语言学特征和网络特征构成的页面特征集,通过统计归一化实现页面特征的建模,从而得到了本文的混合特征向量空间模型。在分类器的训练策略上,引入了机器学习中有监督的分类思想,研究了支持向量机算法,采用了经参数优化的支持向量机算法对混合特征模型进行训练,获得了识别性能更好的主题分类器和页面过滤器。本系统通过将主题分类器与页面过滤器级联实现了基于混合特征的中文文本分类系统。系统首先根据网页资源的网络地址获取网页资源信息,依靠算法从获取的网页信息中提取出特定的文本信息;然后基于获取的文本信息进行混合特征的模型建立和分类系统的构造;最后通过性能测试,证明了系统具有较高的分类精度和较强的页面过滤能东北大学硕士学位论文摘要容在内的纯文本信息。力。关键词:文本分类;特征权重算法:混合特征;支持向量机
万方数据
篿琲甌东北大学硕士学位论文甒甒—琺瓵,..,..,,..
万方数据
,;
万方数据
录目第吕砺刍∮牍丶际酢独创性声明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第滦髀邸璴第禄诨旌咸卣鞯姆掷嘞低成杓啤研究的背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.文本分类的国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.诹拥姆椒ā,⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯东北大学硕士学位论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯............⋯.........⋯.......⋯............⋯.......⋯.........⋯⋯⋯⋯.疚慕峁拱才拧文本分类概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..谋窘!系统设计目标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯系统整体框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯目录一
万方数据
第禄诨旌咸卣鞯哪P徒ⅰ第路掷嘞低车氖迪钟胄阅芷兰邸第伦芙嵊胝雇结构化信息获取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⒒袢〉氖迪帧混合特征提取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
基于混合特征中文文本分类地研究 来自淘豆网m.daumloan.com转载请标明出处.