下载此文档

抄袭检测技术.doc

文档分类：论文 | 页数：约5页举报非法文档有奖

1/5

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/5 下载此文档

文档列表 文档介绍

抄袭检测技术
摘要介绍了当前针对论文的抄袭检测技术的工作机制,具体分析了抄袭检测的核心技术,如文档分析、索引技术、查询技术,简介了两款抄袭检测产品,展望了抄袭检测技术的发展。
关键词抄袭检测特征提取索引查询
抄袭检测定义
在Google和Baidu中对“抄袭”进行搜索,得到百度百科中对“抄袭”的定义:“抄袭指窃取他人的作品当作自己的。包括完全照抄他人作品和在一定程度上改变其形式或内容的行为。是一种严重侵犯他人著作权的行为,同时也是在著作权审判实践中较难认定的行为”。
抄袭检测是从内容的相似度上对抄袭行为进行判定。
主要工作机制
抄袭检测技术起步于20世纪70年代,主要是软件剽窃检测方面的研究,后来自然语言的重复检测技术在90年代之后得到了较快发展。
抄袭检测是基于庞大的现有文档数据库进行的,通过提取待检测文档的特征——关键词、词的使用频率、词的位置,在以词为索引以文档序号等为内容的倒排索引文件中进行搜索,搜出包含这些词的文档,然后将待检测文档的特征分别与这些文档的特征进行相似度运算,以相似度为指标得出抄袭程度的结论。此文中,文档定义为建立索引的文本单位,可以是一篇论文,也可以是段落甚至句子。抄袭检测的核心工作流程如图表 1所示。
图表 1 抄袭检测系统流程图
具体技术介绍
文档分析
以句子为单位进行内容比较是一种较为简单的实现,当前一些网站提供这样的抄袭检测服务:其利用Google、Baidu等搜索引擎分别逐条以句子为单位进行搜索,得出每一句是否为原创的判定,并最终通过计数来计算出原创度。但是这样的服务是基于反复进行网络搜索实现的,要耗用较长的时间,而且因为因一字之差就会得出两个相似的句子为不相同的结论,所以只能检测出很原始懒惰的抄袭,这样的服务实用性很差。
以句子为索引进行查询几乎是不可能的。事实上查询是以词为单位进行的。待检测文档提取了这样的文档特征信息:关键词(WordID)、词的使用频率(NHits)、词的位置(HitList),如图表 2所示。
图表 2 文档提取词汇信息
在这里最重要的技术是分词技术,也称切词。以简单例子说明,对于“学历史学好”这个句子,人很容易正确理解,但对于机器来说,却可能分成“学历/史学/好”、“学/历史/学好”、“学/历史学/好”等。
目前的分词手段主要依靠了字典和统计学的方法。具体有“最大匹配法”、“N-Gram”等方法。“最大匹配法”总是认为最大匹配的词汇最优,但是局部最优很有可能不是全局最优。“N-Gram”采取N单位长度的逐字切分方法,照顾了所有可能,但是同时其关键词表却很大,这对于要尽力压缩索引表的目标来说是很不经济的。由于语言的多样化,没有哪个分词方法能解决全部的问题,这也正是许多科学家开展更深入研究的动力。
索引技术
为了查询哪些文档包含了这些关键词,以及词的位置信息,需要有建立一个以词为索引以文档序号等为内容的索引文件,其基本格式如图表 3所示,称为倒排索引。
图表 3 倒排索引
Wordn是一个词汇序号,通过词典找到Wordn的位置,然后通过DocList位置域存放的位置信息找到记录表。记录表中的一个记录由文档编号(DocID)、索引词在文档中命中的次数(NHits)、命中的位置列表(Hitlist)组成。
倒排索引是相对于正排索引定义的,正排索引以

抄袭检测技术来自淘豆网m.daumloan.com转载请标明出处.