摘要摘 要隐喻是自然语言处理领域最棘手的问题之一,这个问题逐渐引起了学者们的关注,并且隐喻在思维及语言中所处的中心地位也逐渐为自然语言处理研究者所认同。隐喻是通过一个事物来表达另外一个事物,它不仅是~种修辞手段,而且体现着人的一种类比认知和思维方式。实际上,隐喻现象是一切自然语言中普遍存在的现象,是自然语言处理不可回避的问题,因此隐喻问题若得不到很好的解决,将成为制约自然语言处理和机器翻译发展的瓶颈。近几年来,在隐喻识别方面,机器学习方法和大规模知识获取成了新的亮点。本文选择汉语文本中的隐喻计算问题作为研究对象,以隐喻识别为研究内容,从名词性隐喻和动词性隐喻这两种最主要的隐喻类型入手,采用多种机器学习算法,广泛地探讨了隐喻的识别方法。本文选择了20个常用的隐喻词语,使用2001年-2004年的《人民日报》语料进行隐喻识别研究,主要研究内容如下:基于有监督学习的隐喻识别。针对名词性隐喻和动词性隐喻这两类主要的隐喻类型,提出了基于RFRSUM模型、SVM算法、CRF模型、最大熵模型和语义相似度计算模型的隐喻识别方法。分类方法为识别隐喻提供了一个机器识别的思路,考察了主流的分类方法在识别隐喻时的性能和效果。其中,RFRSUM模型识别性能比较稳定,名词性和动词性隐喻的正确率的稳定性保持地最好。另外,CRF模型的识别正确率比SVM算法的略高,但是效果最好的是语义相似度计算模型。这个模型在采用K近邻分类算法的基础上,融入了语义相似度计算,使它的隐喻识别性能得到提高,是五个模型中隐喻识别正确率最高的。此外,对五个模型的实验结果进行了基于投票的集成实验。使隐喻识别正确率得到提升,%,%。基于聚类算法的隐喻识别。在聚类过程中,样本间的相似度使用了基于同义词词林的向量空间相似度计算和基于知网的语义相似度计算两种方法,,并对K-means算法的随机选择初始聚类中心的方法进行了优化。聚类实验设计了三个方案来提升隐喻识别结果的正确率,其中方案二不仅利用了近距离搭配信息,也考虑了远距离的特征信息,使实验结果得到提高。基于半监督算法的隐喻识别。,该算法是在分类实验和聚类实验的基础之上实现的。不仅利用了已标记样本的信息量,而且运用了未标记样本提供的信息,提高了隐喻识别的正确率。摘要最后,构建了用于隐喻计算的小型隐喻知识库。在隐喻研究的实验结果基础上,利用算法抽取隐喻类的特征词,并把特征词依据对应的RFR值进行排序,建立基于隐喻特征—-RFR值这种结构的隐喻知识库。此外,通过基于知识库的隐喻计算实验,验证了构建的隐喻知识库的有效性。总之,本文的研究工作主要是基于机器学习算法和知识获取方法,探讨了各种机器学习算法进行隐喻识别的实验思路,避免了手工知识库和规则方法的不足,积累了多种机器学习算法进行隐喻识别的大量实验数据,获得了隐喻识别研究较理想的实验结果。本文研究方法可以为隐喻计算、隐喻理解、隐喻本体研究及自然语言处理相关研究提供支持。关键词:隐喻识别,机器学习,分类算法,聚类算法,半监督学习,知识获取IlAbstractAbstractAsoneoftheintractableproblemsinfieldofNLP(NaturalLanguageProcessing),,butalsoembodiespeople’,,iftheproblemiSnotwellresolved,,machinelearningmethodsandautomaticlarge-
基于机器学习算法的隐喻识别研究-计算机科学与技术;计算机应用技术专业论文 来自淘豆网m.daumloan.com转载请标明出处.