A Dissertation Submitted to Shanghai Jiao Tong University for the
Degree of Master
RESEARCH ON SEMANTIC ORIENTATION
CLASSIFICATION OF CHINESE TEXTS
BASED ON EVALUATION OBJECTS AND
AFFECTIVE CHARACTERISTICS
Author: Zhu Jie
Student ID: 1070369044
Specialty: Communication and Information System
Advisor: Associate Prof. Liu Gongshen
School of Information Security Engineering
Shanghai Jiao Tong University
第 I 页
Shanghai,
January, 2010
第 II 页
基于评价对象及其情感特征的中文文本倾向性分类研究
摘要
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络
评论进行挖掘和分析,识别出其中的情感倾向,对于电子商务、网络监
管等领域有着重要的意义和实用价值。因而文本倾向性分类(Semantic
Orientation Classification)正逐步成为自然语言处理领域的一个研究热点。
本文研究的中文文本倾向性分类,即通过分析文本中的情感倾向,
将文本判别为褒义或贬义两个类别。由于情感表达的复杂性,将传统基
于机器学习的文本分类方法直接应用于文本倾向性分类领域,往往无法
达到很好的分类效果。为提升分类性能,本文尝试为分类系统加入更多
的语义信息,设计并实现了一个基于评价对象及其情感特征的中文文本
倾向性分类系统。
本文的主要研究工作和成果有:
1) 研究了传统基于机器学习的文本分类方法应用于中文文本倾向性
分类领域的分类性能。通过采用不同的停用词表、特征选取方法、特征
加权方法和分类器进行比较实验,最终发现采用保留情感信息相关词性
的停用词表,并应用基于 TF-IDF 加权的支持向量机分类模型,能取得较
好的分类效果。
2) 研究了情感特征候选集的获取方法。通过以《知网情感分析用词
语集》中的词汇为种子集合,使用《同义词词林扩展版》进行同义扩展,
获得了包含情感倾向性信息的常用词汇列表。
3) 研究了文本中评价对象及其情感特征的识别方法。考虑到文本所
第 III 页
表达的情感倾向必然针对特定的对象,所以有必要将文本中的评价对象
及其对应的情感词识别出来,作为包含文本倾向性信息的重要特征。本
文采用了依存句法分析模块,并针对不同的依存关系制定了相应的识别
规则,达到了较好的识别效果。
4) 提出了基于评价对象及其情感特征的文本向量模型。本文通过将
(评价对象,情感词,情感标记)三元组作为文本向量特征,成功地将
情感倾向性信息融入文本向量模型。
5) 提出了 TSF-IDF 的特征加权方法。通过词汇情感频率(TSF)和
逆向文件频率(IDF)的结合,综合考虑了特征在文档中的情感倾向频度
和在文档集中的重要程度。
6) 构建了基于评价对象及其情感特征的文本倾向性分类系统。在系
统实验中,使用支持向量机分类器,对于酒店评论和电影评论这两个主
题的语料进行了测试,分别获得了约 89%和 87%的准确率,效果优于使
用传统的文本分类方法。
关键词: 文本倾向性分类,依存句法分析,评价对象,情感特征
第 IV 页
Research on Semantic Orientation Classification of Chinese Texts
Based on Evaluation Objects and Affective Characteristics
ABSTRACT
With the spreading of in recent years, the amount of on-line
reviews has been fast growing. Analyzing these reviews and identifying the
semantic orientation contained, will have great significance
基于评价对象及其情感特征中文文本倾向性分类地研究 来自淘豆网m.daumloan.com转载请标明出处.