硕士学位论文
面向金融领域的文本情感分析技术研究
THE STUDY ON SENTIMENT ANALYSIS
FOR FINANCIAL TEXT
王亚伟
哈尔滨工业大学
2011 年 12 月
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开
硕士学位论文
面向金融领域的文本情感分析技术研究
硕士研究生: 王亚伟
导师: 王晓龙教授
申请学位: 工学硕士
学科: 计算机科学与技术
所在单位: 深圳研究生院
答辩日期: 2011 年 12 月
授予学位单位: 哈尔滨工业大学
Classified Index:
:
Thesis for the Master Degree in Engineering
THE STUDY ON SENTIMENT ANALYSIS
FOR FINANCIAL TEXT
Candidate: Yawei Wang
Supervisor: Wang
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science&Technology
Affiliation: Shenzhen Graduate School
Date of Defence: December, 2011
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘要
随着互联网技术和金融产业的飞速发展,网络上金融信息日益丰富,同时,
人们对金融信息的需求也日益增多。金融文本的倾向性可能对相关个股或者公
司股票价格走势产生重要影响,为此,对金融文本进行进一步的情感分析,有
助于投资者进行投资决策。人工判断新闻、评论等金融文本的倾向性的工作量
巨大,迫切需要一种面向金融领域的自动文本情感分析技术和工具。金融文本
的情感分析技术主要受制于高性能的文本情感分类算法和高质量的金融文本情
感标注语料库。
为此,本文首先对金融文本的倾向性判定方法进行了研究,结合文本情感
分类特点,本文对感知器算法进行改进,提出了基于优化感知器的文本倾向性
分析方法。通过观察和分析金融文本的特点,本文提取了情感词、评价词等特
征来表示金融文本。传统的感知器方法的优点是可以通过错误分类的样本来调
节各个特征的权重,但却存在确定学习率的问题,而传统的基于情感词典统计
的倾向性分析方法能够采用固定特征权值进行统计,所以本文结合感知器和词
典统计方法提出了优化感知器的文本倾向性分析方法。实验结果表明,优化的
感知器方法能够有效地判断金融文本的倾向性,在同一金融语料库上的倾向性
分析效果优于其它方法。
其次,由于人工标记语料具有主观偏向性的缺点,从而影响语料库的一致
性,并且导致基于监督学习分析方法的综合性能下降。借鉴 PageRank 算法的思
想,本文提出了一种新的 DocRank 算法,算法采用文本图的结构来表示文档间
相互关系,优选出具有代表性的情感样本作为训练语料集合。通过多组对比实
验表明,DocRank 算法能够对语料库进行优化选择,提高语料库的一致性。
最后,本文将上述算法应用到了专业的金融信息检索系统中。从而帮助用
户更好的理解金融文本,提升用户体验,同时也验证了算法的有效性。
关键词:情感分析;感知器;文本图
- I -
哈尔滨工业大学工学硕士学位论文
Abstract
With the rapid development of and financial industry, both provisions
and requirements of financial information people needed increase substantially. The
tendency of financial texts may have a major impact on the related stocks or
companies, therefore the fu
面向金融领域的文本情感分析技术研究 来自淘豆网m.daumloan.com转载请标明出处.