May 2010
RESEARCH ON PUTING METHOD FOR
DOMAIN TEXTS
MASTER OF PHILOSOPHY
Shandong University of Science and Technology
YibingLuo
Supervisor: ProfessorQingtian Zeng
College of Information Science and Engineering
A Dissertation submitted in fulfillment of the requirementsof the degree of
from
by
RESEARCH ON PUTING METHOD FOR
DOMAIN TEXTS
A Dissertation submitted in fulfillment of the requirementsof the degree of
MASTER OF PHILOSOPHY
from
Shandong University of Science and Technology
by
YibingLuo
Supervisor: ProfessorQingtian Zeng
College of Information Science and Engineering
May 2010
,
,
I declare that this dissertation, submitted in fulfillment of the requirements for the
award of Master of Philosophy in Shandong University of Science and Technology,is
wholly my own work unless referenced of acknowledge. The document has not been
submitted for qualification at any other academic institute.
Signature:
Date:
声明
本人呈交给山东科技大学的这篇硕士学位论文,除了所列参考文献和世所公认的文
献外,全部是本人在导师指导下的研究成果。该论文资料尚没有呈交于其它任何学术机关
作鉴定。
硕士生签名:
日期:
AFFIRMATION
I declare that this dissertation, submitted in fulfillment of the requirements for the
award of Master of Philosophy in Shandong University of Science and Technology,is
wholly my own work unless referenced of acknowledge. The document has not been
submitted for qualification at any other academic institute.
Signature:
Date:
山东科技大学硕士学位论文摘要
摘要
随着行业内文本数据的不断积累,如教育、财经、餐饮、旅游等领域拥有大量的doc 、
pdf 等格式的非结构或半结构化的数据。同结构化的数据管理相比,这些非结构或半结
构化的数据管理要难很多。最近几年来出现了许多面向行业领域的应用,如酷讯网的车
票信息、搜房网的房产信息等,它们提供的服务方便了人们的生活,但大多数是基于领
域内结构化数据的信息加工和服务,所以本文主要研究行业领域内非结构化数据文本信
息处理中文本相似度计算的问题。文本相似度计算是文本信息处理的基础,可为文本聚
类、文本分类、相似文本资源推荐等提供技术支持。传统的文本相似度计算是基于关键
词集的向量空间模型,它仅考虑了文本中关键词的简单匹配,而没有考虑关键词的语义
以及关键词之间的联系;同时它在针对领域文本相似度计算时,很少考虑文本的领域特
征。
本文研究领域文本相似度计算,其研究思路就是如何从文本集中抽取领域知识以及
如何利用领域知识来挖掘文本的语义特征来计算文本相似度。主要工作和贡献如下:
(1)提出了一种中文未登录词检测方法。在研究未登录词特点的基础上,设计并验
证了基于大规模语料集的候选未登录词统计和阈值过滤的未登录词检测方法。
(2)设计了一种领域知识获取模型。使用带有正负
领域文本相似度计算方法探究 来自淘豆网m.daumloan.com转载请标明出处.