中文摘要
自然语言处理技术的研究目标是采用各种技术自动化理解和解释文
本信息,这些技术同样也可以用来分析学生作业。传统的 NLP 系统采用
基于规则的推理方法,近年来随着计算机运算能力的提高和海量文本信
息的出现,研究人员发现基于文本统计分析的方法更加有效,现在的文
本分析方法大多是基于统计学原理的。
利用统计学原理分析文本所遇到的第一个问题是如何将文本转换成
计算机可处理的数字形式。基本的步骤包括抽词、过滤停用词、确定句
子和段落的边界,将文本转换成可以进行统计学分析的向量。
文本被转换成向量之后可以利用统计学方法比较文本之间的相似
性,或对文本进行聚类或分类。但是文本分析往往比较困难,因为文本
向量空间的维度(例如单词的个数)太大,因此如何降低文本向量的纬
度非常重要。
学生作业文本相似度研究就是要利用目前以有的比较成熟的自然语
言处理技术以及文本挖掘的技术和手段对学生作业文本的相似度进行研
究,主要用于了解、评价学生作业。
本文首先介绍了自然语言处理和文本挖掘出现的背景和发展历史,
详细阐述了中文文档分词技术、中文文档特征选择技术、文本相似度计
算方法等,并以给定的学生作业为研究对象,在受限条件下对学生作业
文本相似度进行了研究。
最后通过实验对学生作业文本进行了相似度计算,并对计算结果进
行分析和评价,发现学生作业相似度可以体现学生的思维方式、思维特
点,可供教师在分析学生学习效果时参考使用。
关健词: 相似度,作业,自动分词,特征抽取,文本相似度计算
ABSTRACT
The purpose of the studies on Natural Language Processing is to find
proper technologies to automatically understand and explain text content.
Those technologies can also be used to analyze student’s homework.
Traditional NLP systems use rule-based reasoning methods. Recently, with
increased computational capability of modern computers and emergence of
huge amount of text information, researchers find that statistics-based text
analysis is more effective. Nowadays, most of the text analysis methods are
based on statistical theory.
In order to use statistics based text analysis method, the first challenge is
how to transform the text to machine readable format. The basic steps are:
extract words, remove stop-words, determine sentence and paragraph
boundaries, and convert text to vector which can be used by statistical
analysis.
After transforming text to vector format, we can compare similarities
among those text using statistic methods. We can also perform clustering or
categorization on them. However, text analysis is a very challenging task
because of the high dimensionality (. number of words) of the transformed
vectors. So, it is very important to reduce the dimensionality of the
transfo
受限条件下学生作业文本相似度的研究 来自淘豆网m.daumloan.com转载请标明出处.