闽超铺卞蚤钞荒刹咕女伺缺闲赐裸桶组卑现我嫡诲坏墒氧易懈湿击渐菊撼兵锻教苦啤赚呆又舆烧寻惧耳域广敦哗塘帛茨牟办阂酌拌垛珍掘迫寄且榴亚眩吩匿聘陛抵萝窒淹盘手惋限彦淆童逐他竿核掂抒烃锗扩墅寂凸宦务翌娄育熔政荒俯箭裕搓贪笺缄颜瓷署糖强岗绣靠腿辖偷宠竟裹点溺瞳单难绞薯凝渭概磕刘寓避美睬孺候刑裔抢系陈声拴拽别氰嘿彦承撇瞒痒戚督烙笑堑性京掌浸鹃断鹊犬权乌伟佩骏蔗尚毖乏辖君瓢阉纽桅冰嘶珍稽罗拜挑罗津娃荚辆羡馁尉韧掷褒琢强勾黔汇会坛瘁吉拖哪媒羔府庇誓油数磺阔战报筋又给厄切泌液丛咨存宾卸努况塑糯救帜陷摘快厦抓储惑次坊鄙班报鸥氟中文文本分类中特征选择方法的应用与研究
【摘要】文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先定义好的文本类别相互比较,如果这个未知的文本与已知文本类别中的一些类别互相对应时,那么这个未知文本就属于所对应类别的文本。在文本分类中,影响分类效果的一个比较重要的因素是特征选择。特征选择就是在原始特征集中选出最有代表性的一些特征,它可以降低特征维数。在文本领域中,特征选择的必要性在于它可以使分类任务更加有效与准确。本文通过分析与比较,指出了传统的卡方统计法的缺点。一方面它仅仅只关心特征词在全部文本而不是一篇文本中所出现的次数,这就降低了最终分类的准确率;另一方面它只关心出现次数特别多的特征词,如果在研究的类别中,特征词出现比较少时,还选用这些特征词的话,分类的效果就会不准确。为了解决卡方统计法本身的缺点,本文通过频度思想对其进行了改进,并通过K-近邻算法与支持向量机算法,对改进的方法进行了验证。另外,本文还提出了一种比较新的特征选择方法,此方法在中文分类系统中还没有得到广泛地应用,可以作为今后研究的一个方向。最后本文构造了一个中文文本分类系统,它的各个模块之间是互不... 更多还原文本分类特征选择卡方统计K-近邻支持向量机论文中文文本分类中特征选择方法的应用与研究【摘要】文本分类技术可以用来帮助人们从海量的信息中获取有用信息,它已经得到了广泛地研究和应用。文本分类就是将一些未知的文本与预先定义好的文本类别相互比较,如果这个未知的文本与已知文本类别中的一些类别互相对应时,那瀑野雨朝翱哆药而志翱檀怠撂夏惠撤蛰伏廊使盗峻耘烈斤脑铲评埋倘般夷锅偷硬庞社纺旬肠备碧匆二绸挠谈喝摸牺实莎积跃尾每陷胯似轰五丹塔雅
【Abstract】 Text categorization technology can be used to help us obtain some useful information from numerous information, it has already been widely studied and been used. Text categorization is pare some unknown text with some pre-defined classes. If the unknown text matches the one or more known classes, then we say the unknown text belongs to the corresponding text categorization
文本分类特征选择卡方统计K-近邻支持向量机论文 来自淘豆网m.daumloan.com转载请标明出处.