摘要体系下,根据文本的内容自动判别文本类别的过程。息定义,解决了各个类别样本数目不均衡问题,提出了自己的特征词条提取方法;本,进行文本分类和测试。本文使用神经网络作为分类器实现了一个简单的文本分类系统,并得出关键词:文本分类人工神经网络中文信息处理向量空间模型随着网络的迅猛发展,自动信息处理越来越成为人们获取大量信息不鄙的摺N谋咀远掷嘧魑N淖中畔⒋淼闹匾Q芯糠较颍侵冈谔囟ǖ姆掷本文对文本分类中所涉及的关键技术,包括向量空间模型⑻卣魈崛和编码、神经网络训贩椒ǖ龋辛艘恍┨教趾统⑹浴8慕舜车幕バ在对特征词条编码的基础上,进行了文本编码,同时解决了各个类别的特征词条的数目不均衡对文本分类的影响,然后使用编码后的文本作为训练样本和测试样了比较理想实验结果。通过实验系统说明了使用改进的互信息对文本进行编码、利用人工神经网络作为分类器是一种分类效果很好的文本分类方法。
—瓵,猟,,,,—,琲瓼,.。弹,.
烨咻州签名:拦媾导师签名;呸垒丝日期迦望二《’独创性声明关于论文使用授权的说明取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、。签名
第一壹引言干里。它容纳了各种类型的海量的原始信息,包括文本信息、声音信息、图像信息等等。人类第一次拥有了共享海量信息的机会。同时,如何在浩基∩鲜峭耆墒謎鸭⒄怼⒎掷唷⑴判蚝统槿≌R5取N颐侵5溃分类,并给每篇文章标记相应的分类号。但手工分类这一繁琐的工作却又带有很强主观性、局限性。一段文字信息的题目、主题、内容提要R有效的自动文本分类的方法成为了一种迫切的现实需要。白上世纪年代初西方就开始了自动文本分类的研究,在我国则是近十年的事。使用基于人工智能技术的文本分类系统能够依据一定的特征将文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤、文本管理等信文本分类的关键问题之一是如何构造分类函数渤莆7掷嗥,将未九十年代以来,以惊人朐速度发展起来,近年更是一日若烟海而又纷繁芜杂的中快速、全面地掌握最有效的信息就成为信息处理的一个重要目标。只有对信息实现了有效的组织才能实现对信息的有效利用。遗一感的是,迄今为止人们对信息的组织却十分落后。尤其是文字信息,文章的分类和抽取摘要有利于文章的快速检索。如果一个文章集合被分成了啵笤计骄商岣遪倍的查找速度。所以人们很早就:始研究文本等完全由作者、文字工作人员或整理者手工处理,其效率、公正性和准确性等都不是令人十分满意的。互联网上有数以万亿计网页,如果由人工来做上述工作,恐怕任何个人、公司,甚至国家都无法承受。因此,简单、大量的文本自动分门别类,从而更好地帮助人们整理文本信息。近年来,息处理技术相结合,成为提高信息服务质量的有效工具。知类别文本与给定的类别“模板’’进行匹配。目前有许多种分类器的构造第一章引言
本自动分类系统。方法,如统计方法、机器学习方法等。国外对文本分类技术的研究已经丌展了多年,并在邮件分类、电子会议、信息过滤等方面得到了较为广泛的应用,其中较为成功的系统有麻省理工学院0坠7⒌挠始掷系统等。在国内,文本自动分类技术的研究起步较晚,但随着中文环境下的嗍络用户数目的爆炸性增长,网络中中文信息越来越丰富,使中文信息处理愈加成为需要迫切解决的问题,因此有必要研究简单、实用的中文文北京工业人学理学硕士学位论文
厂:稡其中,爿为待分类的文本集合,7掷嗵逑抵械睦啾鹗第二章问题描述文本分类系统要解决的问题评估分类结果的技术指标内外都有~些标准的分类体系,国内的标准是中图法,本文中没有使用这些标准。为了便于说明本文提出的方法,我们使用的是自己定义的简单分类体系菸谋镜哪谌葑远厝范ㄎ谋竟亓5睦啾稹4邮Ы嵌壤纯矗文本分类是一个映射的过程,它将未知类别的文本映射到已有的类别中,个类别相关联。但是,为了问题的简化,多数系统采用一一映射。用数学息,总结出分类的规律性而建立的判别公式和判别规则。然后当输入未知类别的测试文本时,根据总结出的判别规则,确定文本相关的类别。标志是映射的准确程度和映射的速度。其中,映射的速度取决于映射规则的复杂程度,而评估映劓准确程度的参照物是通过专家思考判断后对文本的分类结果饫锛偕枳ḿ宜伎寂卸虾蠓掷嗤耆凡⑶遗懦鋈怂嘉异的因素肴斯し掷嘟峁较嘟掷嗟淖既烦潭染驮礁撸谋痉掷所谓的分类正确就是指自动分
基于人工神经网络的自动文本分类分析 来自淘豆网m.daumloan.com转载请标明出处.