摘要随着互联网的快速发展,网上信息越来越多,如何在这些海量信息中快速准自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理计算机对于中文的处理相对于西文的处理存在更大的难度,集中体现在对文分析比较的基础上,提出了一种基于双数组��树中文分词算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高在中文信息处理中,句子相似度的计算广泛应用于信息检索、机器翻译、自人们研究的热点和难点。本文分析比较了现有的句子相似度计算方法,然后提出了一种新方法,结合基于《知网》语义相似度计算和基于向量空间的�木���明使用本文的分词方法后,不仅时间效率和空间利用率得到很大提高,而且提出的句子相似度方法效果也不错。确地找到所需要的信息也越来越困难。虽然传统的搜索引擎�鏕����已经取得了很大的成功,但这类搜索引擎只能获取与用户查询请求相关的文档,用户必须自己从这些文档中查找相关信息;其查询是一系列关键词而非自然语言问句,事实上,用户可能更习惯于用自然语言来描述一个问题;多数情况下,用户所需要的只是问题的确切答案,而不是与该问题相关的一系列网页。自动问答技术是技术。而在信息检索领域中,语义相似度起着重要的作用,提高语义相似度的精度有重要的理论和实际意义。本分词的处理上。分词是中文句子相似度计算的基础和前提,采用高效的分词算法能够极大地提高句子相似度计算结果的准确性。本文在对常用的中文分词算法了分词的完整性和准确性。动问答系统、自动文摘等领域,是一个非常基础而关键的问题,长期以来一直是法,随后利用此方法结合前面提出的分词方法,给出了中文句子相似度的实现算法,并以问答式信息检索系统为例进行了测试,对所用方法进行了验证。实验证关键字:自然语言处理:问答系统:知网:分词:语义相似度硕士学位论文Ⅱ
甒�〆����������.�������.���糲�������.�����瑀����������,������.�����������瑃�������甎������.�������������.��產�,�������甀�������.����瑆���,���癮����������’������,�����琣���.��������,�����������瑃�����.�����,������゛�������琺���������琣��������·��������甀�痵��.����琽�����琣�.�����甌���皕���Ⅲ���瑄��
;������甉�������������硕士学位论文�������������.�����������������瑃���.�����;������;����
插图索引图��分词流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�Ⅶ图��以“中�挚M返牟糠諸��鹘峁埂���������������������图��树状的义原层次结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯“�图��用于查找候选问题集的结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”�图��系统实现流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�基于���多特征结合的句子相似度计算
附表索引Ⅷ表��《知网》主要词性标注符号集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�表��构造双数组��树时间⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯�表��给定语料分词速度⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·�《知网����》知识描述语言中的符号及其含义⋯⋯⋯⋯⋯⋯⋯⋯“�表��《知网》词典文件结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·�表��《知网����》知识描述语言实例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯”�表��词语相似度计算实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.,.⋯⋯⋯⋯⋯�表��问答系统实验结果比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一�表��占用空间⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯·�表��硕士学位论文
劬嗍刁年�耼日珠参矿权柴纽权湖南大学学位论文原创性声明学位论文版权使用授权书日期:矽锣年,月二乞日日期:劢节年岁月�胰�其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:本学位论文作
多特征结合的句子相似度计算 来自淘豆网m.daumloan.com转载请标明出处.