下载此文档

基于多元权重特征加权的中文文本分类算法.pdf


文档分类:IT计算机 | 页数:约68页 举报非法文档有奖
1/68
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/68 下载此文档
文档列表 文档介绍
基于多元权重特征加权的中文文本分类算法
摘 要
随着计算机网络的不断发展,实时共享网络资源已经成为可能,但是同时也带来了
海量的信息资源。为了能够从海量纷杂的文本信息中及时准确地获取有效的知识和信
息,人们开始关注文本分类技术。文本分类技术可以在很大程度上解决信息杂乱问题,
方便用户准确地定位所需要的信息。
本文探讨了文本分类的一些关键技术,包括文本表示、文本预处理、特征选择、特
征词加权计算、文本分类算法、性能评价。其中,特征词加权算法和 KNN 分类算法是文
本分类过程中两个比较重要的问题,本文围绕这两个问题进行研究。
本文首先阐述了常用的特征词加权算法,着重研究了传统的 tf*idf 加权算法,分
析该加权算法存在的不足,即只考虑特征词频率 tf 和反文档频率 idf 两种因素,而忽
视了特征词本身的特点。在传统的 tf*idf 加权算法的基础上,本文分析了特征词的一
些特点,比如特征词在文档中的位置分布情况、特征词的词语长度和所属的类别,综合
考虑了这几种因素之后,提出多元权重特征加权算法,将原有公式进行了扩展,使得经
过加权算法调整后的特征词更具有代表性。
另外,本文研究了一些常用的文本分类算法后,重点分析了 KNN 分类算法。针对 KNN
分类算法的分类结果易受训练文档集数据倾斜的影响,本文引入了算术平均的思想,提
出有针对性的改进算法,并通过实验来验证该算法的有效性。实验结果表明,本文所提
出的算法效果令人满意,在一定程度上提高了分类的准确率、查全率。

关键词:文本分类,多元权重,特征选择,特征词加权,KNN 分类算法
Chinese Text Classification Algorithm Based on Multiple-factors
Feature Weighting
Abstract
With the development of computer networks, it is possible that not only people can share
resources and results in real time, but also create a mass of information resources. To be able
to obtain effective knowledge and information in the confused mass of information in a timely
and accurate access, text classification has been widespread concern. Text classification can
largely solve the information clutter phenomenon, users can locate information accurately and
conveniently.
This paper analyzes some key techniques of text classification, including text
representation, text segmentation, clear stopwords, feature selection, text classification
algorithms, and performance evaluation. Feature weighting algorithm and the KNN
classification algorithm are two important issues in the process of text classification, s

基于多元权重特征加权的中文文本分类算法 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数68
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈潇睡不醒
  • 文件大小1.42 MB
  • 时间2021-10-09
最近更新