下载此文档

受限语境下文本语义相似度计算的研究及应用.pdf


文档分类:IT计算机 | 页数:约51页 举报非法文档有奖
1/51
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/51 下载此文档
文档列表 文档介绍
摘要考试制度是我国现行教育体制和各类评审选拔中的一个重要环节。文字类考试题分为客观和主观题。客观题的考后判分可以用计算机实现,主观题尚无法有效地通过计算机进行评判,有必要研究用计算机进行主观题判分的方法,以节省教师工作量。开发计算机自动评分系统的关键是找到衡量多个文本间语义相似程度的方法,本文研究了受限语境下中文文本语义相似度计算,提出一种文本语义形式化表示方法一语片表示法,主要内容如下方面。(1)针对传统向量空间模型(VSM)语义表示法中采用关键词特征项的不足。在组块概念的基础上,对其进行扩展,提出语片的方法,语片结构为“关键词+附属词”。从理论的可行性和技术的必要性对语片的可用性进行了论证。将语片与关键词、组块等概念作比较, 给出语片区别于它们的地方,并指出语片的特点和优势。用语片表示文本特征项,用于表示文本语义。建立文本语义的向量空间模型表示形式,用语片的绝对词频作特征项权值,采用向量夹角余弦法计算文本间的语义相似度。(2)基于《操作系统》领域文本语料库,通过计算两个词之间的互信息量,筛选出符合阈值条件的词语,借助于二元语法规则,建立受限语境下两个词之间的相关度数据库,用于确定附属词。(3)建立了包含40个标识符的中文词语词性标记集、包含11个标识符的虚词词性标记集、包含649个词语的停用词列表和包含31621个词语的中文同义词词典,分别用于分词、标注词性、剔除高频虚词与停用词和同义词处理等中文文本处理环节。实现了<<操作系统>课程主观题自动判分系统》。对1036份试卷进行系统自动判分和人工判分的对比实验。%。与国家“十五”重大科技攻关项目中的同类系统进行了对比实验,发现系统有效性与对比系统相当. 关键词:向量空间模型,特征项。权重,语言片段。语义,相似度,考试。评分 ABSTRACT Examination system allimportant area in education system and various evaluation and selection in our examination call bcdivided intoobjective andsubjective questions can puter,while subjective ones still can notbe. essential toresearch themethods toscore thesubjective questions puter to save the workload ofthe teachers. The key todeveloping such system is幻find the method tocalculate thetextssemanticsimilarity. The research concerned withthe Chinese versionsemanticsimilarity calculation method inthe limitedcontext,Itputsforward akind ofmethed toexpress Chinese textsemantic-Language following arethemain points. (1) 111eWaditional vector space model(VSM)semantic representation has deficiencies 吲ng key words articleputs forward theLanguage Fragment method onthebasisoftheconceptofchunLThe structureofLanguage Fragmentis”keywords+ subsidiary”.Itexpounds andproves theapplication ofLanguage Fragment based on the feasibilit,/of thetheory and thenecessity of the theLanguage Fragment withkeywords and theconcept ofchunk,points outthedifferencesamong them and shows the features and advantages ofthe Language was the Language

受限语境下文本语义相似度计算的研究及应用 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数51
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2890135236
  • 文件大小0 KB
  • 时间2016-04-25
最近更新