下载此文档

面向科技项目的相似度计算和聚类算法的研究.pdf


文档分类:IT计算机 | 页数:约64页 举报非法文档有奖
1/64
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/64 下载此文档
文档列表 文档介绍
硕士学位论文




题目: 面向科技项目的相似度计算和聚类
算法研究



研究生赵士杰
专业计算机应用技术
指导教师徐小良教授



完成日期 2015 年 3 月




万方数据
杭州电子科技大学硕士学位论文






面向科技项目的相似度计算
和聚类算法研究








研究生: 赵士杰
指导教师: 徐小良教授




2015 年 3 月

万方数据
Dissertation Submitted to Hangzhou Dianzi University
for the Degree of Master








Research on Similarity Calculation and
clustering for Science and Technology
Project








Candidate: Zhao Shijie
Supervisor: Prof. Xu Xiaoliang




March, 2015





万方数据
杭州电子科技大学
学位论文原创性声明和使用授权说明

原创性声明

本人郑重声明: 所呈交的学位论文,是本人在导师的指导下,独立进行研
究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人
或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集
体,均已在文中以明确方式标明。
申请学位论文与资料若有不实之处,本人承担一切相关责任。

论文作者签名: 日期: 年月日

学位论文使用授权说明

本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研
究生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证
毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大
学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文
的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密
论文在解密后遵守此规定)



论文作者签名: 日期: 年月日

指导教师签名: 日期: 年月日


万方数据
杭州电子科技大学硕士学位论文

摘要
随着我国对科技经费投入的逐渐增多,科研单位科技项目的申请也变得越来
越多,怎么样有效的解决项目重复立项问题是现代科技项目管理中非常重要的一
部分。传统的人工查重显然是不行的,而已有的一些查重系统在精度和速度上都
不能满足要求,因此对项目查重系统关键技术的研究就变得非常有必要。本文重
点对科技项目的表示模型、相似度计算和聚类等技术进行研究。主要工作包括以
下几个方面:
、信息大的特点,提出一种结合物元知识表示模
型和向量空间模型的科技项目知识表示模型和科技项目关系模型,方便后续对科
技项目的表示和处理。
,分析总结了基于向量空间模型的相似度计算
方法和基于语义理解的相似度计算方法,在此基础上提出了一种基于语义理解的
VSM 相似度计算方法。针对科技项目名称中含有大量有用信息,字数较少且含有
较多专业名词的特点,提出了一种改进的基于编辑距离的句子相似度计算方法。
最后把以上两种方法分别应用于科技项目的主要内容和项目名称的相似度计算
中,并进行权重调整,综合计算整个科技项目的相似度。
,效率较低
的问题,本文先进行项目聚类然后再进行查重。而已有的聚类算法有需要预先输
入参数和算法时间复杂度较高无法应用于大型项目库等问题,本文提出一种基于
双阈值的最近邻项目聚类算法并应用于项目查重系统,在不影响查重精度的情况
下,提高了查重速度。
在以上相似度计算方法和聚类算法研究成果的基础上,实际应用于浙江省科
技项目相似度检测系统中,有效地实现了项目查重功能,并且有良好查重准确度
和运行速度,成功验证了本论文研究成果的可行性。

关键词:VSM,语义理解,相似度计算,聚类


I
万方数据
杭州电子科技大学硕士学位论文

ABSTRACT
With the gradual in

面向科技项目的相似度计算和聚类算法的研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数64
  • 收藏数0 收藏
  • 顶次数0
  • 上传人nb6785
  • 文件大小0 KB
  • 时间2015-10-20