Forpersonaluseonlyinstudyandresearch;mercialuseForpersonaluseonlyinstudyandresearch;mercialuse中文文本分类中特征选择方法的应用与研究【摘要】文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先定义好的文本类别相互比较,如果这个未知的文本与已知文本类别中的一些类别互相对应时,那么这个未知文本就属于所对应类别的文本。在文本分类中,影响分类效果的一个比较重要的因素是特征选择。特征选择就是在原始特征集中选出最有代表性的一些特征,它可以降低特征维数。在文本领域中,特征选择的必要性在于它可以使分类任务更加有效与准确。本文通过分析与比较,指出了传统的卡方统计法的缺点。一方面它仅仅只关心特征词在全部文本而不是一篇文本中所出现的次数,这就降低了最终分类的准确率;另一方面它只关心出现次数特别多的特征词,如果在研究的类别中,特征词出现比较少时,还选用这些特征词的话,分类的效果就会不准确。为了解决卡方统计法本身的缺点,本文通过频度思想对其进行了改进,并通过K-近邻算法与支持向量机算法,对改进的方法进行了验证。另外,本文还提出了一种比较新的特征选择方法,此方法在中文分类系统中还没有得到广泛地应用,可以作为今后研究的一个方向。最后本文构造了一个中文文本分类系统,它的各个模块之间是互不... 更多还原【Abstract】Textcategorizationtechnologycanbeusedtohelpusobtainsomeusefulinformationfromnumerousinformation,-,,... 更多还原【关键词】文本分类;特征选择;卡方统计;K-近邻;支持向量机;【Keywords】textcategorization;featureselection;CHIstatistic;KNN;SVM;【索购全文】Q联系Q:1Q联系Q:8付费即发目录摘要3-5ABSTRACT5-6第一章绪论10----14第二章文本分类技术及应用14-------.
文本分类特征选择卡方统计K-近邻支持向量机论文 来自淘豆网m.daumloan.com转载请标明出处.