下载此文档

受限条件下学生作业文本相似度的研究.pdf


文档分类:研究报告 | 页数:约56页 举报非法文档有奖
1/56
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/56 下载此文档
文档列表 文档介绍
中文摘要
自然语言处理技术的研究目标是采用各种技术自动化理解和解释文
本信息,这些技术同样也可以用来分析学生作业。传统的 NLP 系统采用
基于规则的推理方法,近年来随着计算机运算能力的提高和海量文本信
息的出现,研究人员发现基于文本统计分析的方法更加有效,现在的文
本分析方法大多是基于统计学原理的。
利用统计学原理分析文本所遇到的第一个问题是如何将文本转换成
计算机可处理的数字形式。基本的步骤包括抽词、过滤停用词、确定句
子和段落的边界,将文本转换成可以进行统计学分析的向量。
文本被转换成向量之后可以利用统计学方法比较文本之间的相似
性,或对文本进行聚类或分类。但是文本分析往往比较困难,因为文本
向量空间的维度(例如单词的个数)太大,因此如何降低文本向量的纬
度非常重要。
学生作业文本相似度研究就是要利用目前以有的比较成熟的自然语
言处理技术以及文本挖掘的技术和手段对学生作业文本的相似度进行研
究,主要用于了解、评价学生作业。
本文首先介绍了自然语言处理和文本挖掘出现的背景和发展历史,
详细阐述了中文文档分词技术、中文文档特征选择技术、文本相似度计
算方法等,并以给定的学生作业为研究对象,在受限条件下对学生作业
文本相似度进行了研究。
最后通过实验对学生作业文本进行了相似度计算,并对计算结果进
行分析和评价,发现学生作业相似度可以体现学生的思维方式、思维特
点,可供教师在分析学生学习效果时参考使用。
关健词: 相似度,作业,自动分词,特征抽取,文本相似度计算
ABSTRACT
The purpose of the studies on Natural Language Processing is to find
proper technologies to automatically understand and explain text content.
Those technologies can also be used to analyze student’s homework.
Traditional NLP systems use rule-based reasoning methods. Recently, with
increased computational capability of modern computers and emergence of
huge amount of text information, researchers find that statistics-based text
analysis is more effective. Nowadays, most of the text analysis methods are
based on statistical theory.
In order to use statistics based text analysis method, the first challenge is
how to transform the text to machine readable format. The basic steps are:
extract words, remove stop-words, determine sentence and paragraph
boundaries, and convert text to vector which can be used by statistical
analysis.
After transforming text to vector format, we can compare similarities
among those text using statistic methods. We can also perform clustering or
categorization on them. However, text analysis is a very challenging task
because of the high dimensionality (. number of words) of the transformed
vectors. So, it is very important to reduce the dimensionality of the
transfo

受限条件下学生作业文本相似度的研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数56
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈潇睡不醒
  • 文件大小708 KB
  • 时间2021-09-12