word
word
1 / 24
word
学位论文开题报告
论文题目:《左传》与《史记》同事异文的自动发现与分析
学 号: 110102031
姓 名:越
申请学位:硕士学成帝之命进行大规模的古籍校勘工作。东汉玄诠释诸经,也多参照各版本异文。唐陆德明的《经典释文》,采辑汉南北朝以来诸家读音、训诂及文字异同,是考释古文字的宝贵资料。到了宋代,学者对典籍异文进行了考辨,如朱熹的《昌黎先生集考异》是这方面的代表之作。不过清代以前,学者们对于异文的利用很少超出校勘的围。清代时,文字、音韵、训诂诸学都得到了很大的发展,学者们也开始使用异文来从事校勘以外其他各门学科的研究了。比如,钱大昕在论证其著名的“古无轻唇音”“古无舌上音”的音韵学命题时,就列举了大量的古书异文材料才佐证。总之,清代学者已经开始积极自觉的应用异文进行语言学的研究了。
近年来,异文的研究越来越受到重视,异文的概念进一步扩大,不再仅限于传统“小学”的畴,而是将围绕同一个主题的不同叙述、描写文本也叫异文。研究比较多的是史汉异文,如徐朔方的《史汉论稿》(1984)和朴宰雨《<史记><汉书>比较研究》(1994)。除此之外,大量的出土文献为异文研究提供了新材料,陆锡兴《<诗经 >异文研究)(2001)等顺应了这一新潮流。 与此同时,出现了对于古籍异文进行理论总结的专著。王彦坤在《古籍异文研究》(1993)中分析了古籍异文现象,是对异文进行全面总结的第一部专著。朱承平《异文类语料的鉴别与应用》(2005)详细讨论了异文的分类以及不同异文的鉴别和应用,系统研究了异文考据学。
总而言之,前人对于古代典籍异文所作出的贡献丰富了汉语史的研究,并提供了宝贵的经验,为我们研究《左传》和《史记》异文提供了有利的条件。
句子相似度的研究
整体来说,目前研究句子相似度的方法有基于关键词的、基于语义词典的、基于语义依存的、基于语境框架的、基于统计的方法,还有计算编辑距离的方法等等。这些方法分别体现了句子在词形、语义以及句法结构三个重要层面的相似度情况。其中,编辑距离法应用广泛,计算方法相对成熟。
编辑距离(Edit Distance)是首先由Levenshtein在1965年提出的,故又叫Leven shtein距离,是一种常用的距离函数度量方法,在相似性匹配领域得到了广泛的应用。两序列之间的编辑距离是指只用插入、删除和替换三种基本操作把一个字符串(S)转换成另一个字符串(T)所需要的最少基本操作次数。编辑距离值越大,则相似度越小。求两个字符串之间的编辑距离实际上转化为一个求最优解的问题,可以利用动态规划的思想(Lowrance .1975)来计算,其中传统的编辑距离算法将每一种基本操作的代价值都简单设定为1。 Monge(1997)等使用一种可调节的编辑距离计算方法来识别重复记录,Cohen(2003)提出一种应用子串进行相似度计量的编辑距离方法。清华大学建华(2008)等提出一种基于NFA( Nondeterministic Finitestate Automation)(非确定性的有限状态自动机) 的编辑距离方法。将匹配字符串看作是一个查找树,通过建立一个查找树索引,从而有效地提高了识别准确率。以发现100 万条记录中的1 000 条相似重复记录为例,%。
word
word
5 / 24
word
国对于利用编辑距离算法计算汉语句子的相似度计算研究方面也取得了一定的成果。车万翔等人的《基于改进编辑距离的中文相似句子检索》(2004)采用改进编辑距离的方法,吸取了基于语义词典的方法和编辑距离方法的优点,同时克服了它们的一些不足。与普通编辑距离不同之处在于,改进编辑距离的方法,同时使用了HowNet和《同义词词林》两种语义辞典,计算词汇之间的语义距离,同时赋予不同编辑操作不同的权重,在不用经过词义消歧和句法分析的前提下,兼顾了结构和词汇等信息,使得对中文识别的准确性更高。% %的查全率。但在这篇文章中将句子分成了较长的子结构,使得查询结果不容易匹配,这需要使用较复杂的句法分析技术。
理工大学的夏天等人发表《改进编辑距离算法与汉语句子相似度计算》(),通过对编辑距离进行有效扩展,提出了一种衡量句子相似度的定量计算方法和对应的多项式时间算法。该方法以词取代字符作为基本的编辑单元,基于词汇语义计算替换代价,引入块交换操作计算语义编辑距离,并对距离进行归一化以计算句子的相似度。改进之后的编辑距离算法与之前比较,得到的结果更为合理。
宝艳等在《基于改进编辑距离和依存文法的汉语句子相似度计算》(2008)中了一种基于改进编
李越 硕士论文设计开题资料报告材料 来自淘豆网m.daumloan.com转载请标明出处.