基于深度学习的短文本语义相似度计算
陈晓阳
2015 年 1 月
中图分类号:
UDC 分类号:540
基于深度学习的短文本语义相似度计算
作 者 姓 名 陈晓阳
学 院 名 称 计算机学院
指 导 教 师 张华平 副研究员
答辩委员会主席 李侃 教授
申 请 学 位 工学硕士
学 科 专 业 计算机科学与技术
学位授予单位 北京理工大学
论文答辩日期 2015 年 1 月
Deep Learning for Short Text Semantic Similarity
Measures
Candidate Name: Xiaoyang Chen
School or Department: Computer Science and Technology
Faculty Mentor: Associate Prof. Huaping Zhang
Chair, Thesis Committee: Prof. Kan Li
Degree Applied: Master of Science
Major: Computer Science and Technology
Degree by: Beijing Institute of Technology
The Date of Defence: Jan, 2015
研究成果声明
本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行
的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,
学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得
北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工
作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的
说明并表示了谢意。
特此申明。
签 名: 日期:
北京理工大学硕士学位论文
摘要
随着社交网络的普及以及智能交互应用的广泛使用,短文本在在互联网中已非常
普遍。因此,作为短文本信息处理的基础技术,短文本语义相似度计算有十分广阔的
前景以及研究价值。
本文对短文本的特点进行分析,提出基于深度学习和依存句法特征的短文本语义
向量化模型。并且在此基础上,结合短文本的多种特征表示,提出多特征融合的短文
本语义相似度计算模型。
本文首先对依存句法分析的原理以及优化方法进行研究,使高精度的依存句法分
析算法在效率上适应于处理互联网中大规模的短文本数据。在此基础上,本文提出使
用 Yamada 算法的结构化依存句法分析模型。并且测试了不同转移集合、特征集合以
及词性集合对于依存句法分析效果的影响。此模型在精度上接近于目前转移依存句法
分析的最好结果,并且在所有精度85%以上的依存句法模型中,达到了最快的分析速
度。
在依存句法的基础上,本文提出基于深度学习以及依存句法特征的短文本
基于深度学习的短文本语义相似度计算 来自淘豆网m.daumloan.com转载请标明出处.