下载此文档

词义消岐.doc


文档分类:外语学习 | 页数:约8页 举报非法文档有奖
1/8
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/8 下载此文档
文档列表 文档介绍
Part1:完全无指导的词义消岐词义消岐(WSD)的主要方法:1基于人工智能(规则)2统计词义消岐方法(1)基于词典的方法(2)基于语料的方法a基于实例的方法b基于统计的方法c多种方法的融合研究问题:领域知识(语言学知识)词典语料库机器学习方法数据稀疏特征提取描述词语在各个词义下的合法使用规范,如词语的固定搭配(Collocations),可以用来生成选择约束集。语料库的衡量标准:平衡性功能质量规模增强语料算法(BootstrappingCorporaAlgorithms)数据稀疏的主要原因:特征维数训练语料的规模。解决办法:降低特征维数增大语料的规模数学方法—数据平滑(建立语言模型的关键技术,加法平滑Good-Turing估计Jelinek-Mercer平滑Katz平滑Church-Gale平滑Average-Count平滑)特征提取需要考虑的问题:领域知识数据稀疏语料规模有无词义标记权重的计算方法。权重的计算:1统计频率——词频、共现频率2熵——最大熵3遗传算法4粗糙集完全无指导的词义消岐方法Sensetagging上者仅在词义标注方面讲是不可能的Sensediscrimination仅从词义区分角度来考虑是可行的算法基本思想:把含有歧义词的上下文分成若干组,从各组上下文中抽取特征信息,,有K个词义:S1,……Sk,……,SKvj:和w(含有特定词义Sk)在某一上下文中共现的特征词含有歧义词的上下文:C1,……Ci,……,CI根据以上条件,通过EM模型估计两个条件概率P(vj|sk)和P(sk)。算法具体过程在PPT中。Part2基于向量空间模型的有导词义消岐基于向量空间模型的有导词义消岐:义项矩阵上下文位置权重有导机器学习优点:可以有效避免数据稀疏问题简洁高效无导机器学习的词义消岐方法:双语对齐方法机器可读词典方法基于向量空间的词义识别基于向量空间和机器可读词典方法。(准确率不稳定)有导机器学习的词义消岐方法:针对高频多义词词义消岐,是当前必须的方法。有:决策树决策表Naive-Bayes神经网络Exemplar-BasedLearning最大熵方法等。本方法中,多义词的每个义项和多义词的一个上下文均被形式化为向量空间模型中的一个点,分别被称为义项向量和上下文向量,通过计算多义词上下文向量与义项向量的距离,采用k-NN(k=1)方法来确定该多义词上下文向量的义项分类,完成词义消岐任务。采用信息增益的方法量化上下文位置权重,以此确定义项矩阵上下文范围。另外文中也提到了文档的形式化表示方法。Part3使用伪词可以避免有指导的词义消岐方法中的数据稀疏问题有试验表明贝叶斯网络比神经网络更适合解决汉语词义消岐问题,但贝叶斯网络的抗噪声能力却明显逊色于神经网络。语义消岐算法(SDA),采用计算词语相关性的方法判断词语语义分类,达到消岐的目的。词语相关性可以通过词语的语义相似度来计算,构造二维矩阵,两两计算语义相似度,其和最大的语义相似度就为各个词语所代表的具体语义。Part4杨老师的论文相关:基于改进编辑距离算法的生物实体识别方法。自然语言处理技术和机器学习成为生物医学文本挖掘的主要支撑技术。生物医学文本挖掘技术相关工作也主要依赖于自然语言处理技术(如链接语法分析、词性标注、借助语言知识、查询扩展技术等)和机器

词义消岐 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数8
  • 收藏数0 收藏
  • 顶次数0
  • 上传人镜花流水
  • 文件大小53 KB
  • 时间2019-01-26