下载此文档

基于统计的中文词自动分类研究.doc


文档分类:办公文档 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
基于统计的中文词自动分类研究?赵石顽夏莹马少平智能技术与系统国家重点实验室清华大学计算机系 100084 E-mail : ******@. Tel : 010-62782266 一、引言基于统计的中文词分类在自然语言处理领域有着重要的应用。机器自动生成的词类可以取代文法的词类;在分类基础上建立的基于类的语言模型可以应用于语音识别、 OCR 、汉字智能输入等许多领域。众所周知, 基于词的语言模型在自然语言处理的许多方面取得了巨大的成功。然而, 基于词的语言模型也存在着许多的问题, 如参数空间庞大, 训练数据不足, 数据稀疏等。词的分类可以在一定程度上解决上述问题。在计算语言学方面的应用中, 不管是采用统计的方法, 还是采用文法的方法, 对词类进行处理都比对单个的词进行处理时问题的复杂度要小得多。我们用基于类的语言模型取代基于词的语言模型, 可以减小模型的参数空间, 减少系统对存储空间的要求。从而可以在小型的系统如掌上电脑、移动电话上建立基于类的语言模型,实现智能输入等。词的分类是建立基于类的语言模型的基础。无论是针对中文, 还是别的语言, 人们对词的类算法已经做了许多的研究。 Brown 等人提出了两个词的自动分类算法。在他们实现的两个分类算法中, 都是利用平均互信息作为评价函数。算法 I. (1) 首先将每一个词都当成一个单独的类,然后计算所有相邻类的互信息; (2) 将互信息损失最少的两个类合并; (3) 经过 V-C 次合并得到 C 个类; (4) 在得到 C 个类以后, 把词汇表中的每一个词移到一个使得平均互信息最大的类中, 重复该步骤直到互信息不再增加为止。然而, 他们认为, 当词汇表的大小超过 5,000 时, 这个算法是不可行的。算法 II. 对一个大的词汇表, (1) 将C 个频度最高的词作为 C 个单独的类; (2) 将未被分配的词中频度最高的一个词作为第 C+1 类, 然后将这 C+1 个类中互信息损失最 wenjian-3 少的两个类合并; (3) 经过 V-C 步后,词汇表中的 V 个词被分成 C 个类。用这个方法,一个有 260,741 个英文单词的词表被分成了 1,000 类。 Chang 和 Chen 在他们的论文中, 以混乱度作为全局最优评价函数, 提出了一个模拟退火的词分类算法: (1) 初始化:将每个词随机分配到一个类中,类的总数是事先定义好的。(2) 移动: 随机地选取一个词, 将该词重新分配到一个随机选取的类中。(3) 接受或者返回: 如果混乱度的改变在控制的范围之内, 则接受新的分配, 否则, 撤销刚才 2 的操作。(4) 循环:重复上述两个步骤,直到混乱度收敛为止。该算法试图找出一个全局最优的分类方案, 但是在训练集比较大的时候,算法的时间复杂度太大。 Gao 和 Chen 提出了一个自顶向下的二叉树分裂的方法, 他们利用词的上下文的方向性, 同时得到两个分类二叉树。 McMahon 在他的论文中,提出了一个类似退火的分类算法。李涓子在她的博士论文中,提出了一种聚类的算法。她认为聚类过程主要由三个部分组成:聚类时词分布的描述方法, 聚类采用的控制策略以及控制聚类过程的目标函数。她在聚类时是采用自顶向下的方法, 词的分布信息用的是词的二元同现关系, 利用信息论中的熵作为聚类? 9

基于统计的中文词自动分类研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人ga3duii7
  • 文件大小76 KB
  • 时间2017-05-15