锄的短文本聚类算法。谋就诰蛑泄丶侍獾难芯首先进行基于字符级的?卣魈崛。创游捶执实挠锪现谐槿≈形摘要个滑动窗口,使用0灞昙谴实奈恢眯畔ⅲ褂么省⒋实南群笪恢随着互联网和通讯网的迅猛发展,网络文本成为信息的主要载体及人们生活中不可或缺的主要信息来源,文本挖掘技术的研究意义和实用价值越来越突出。另一方面,随着甇时代的到来,出现了越来越多的由用户创作的网络数字内容。用户数字内容的大量产生和传播使得短文本计算、文本信息抽取、文本情感分析等逐渐成为文本挖掘研究的热点问题。针对这些问题,本文进行了以下研究:谕臣朴镅阅P偷亩涛谋炯扑恪U攵远涛谋景址佟⑽谋语言不规范、文本数量巨大的特点,本文提出了一种基于甮奶卣提取和块。中文块可以是一个汉字、一个词或者字符串,这样,中文块不但可以表达短文本的语义信息,而且能够保留语序结构和字符之间的依赖。然后通过统计子串约减和互信息过滤得到候选中文块集合。最后,使用一种神经网络聚类算法对短文本进行聚类。实验结果表明,这种基于甮奶卣魈崛『蚏亩涛谋揪劾嗨惴芄挥行У亩远涛谋聚类,并能有效的降低特征的维度。嫦蚬愀嫱萍龊颓楦蟹治龅腤曲文本信息抽取。针对广告推荐中的复合词抽取问题,本文提出了基于隐马尔科夫模型的半监督中文复合词抽取算法。从少量种子复合词出发,通过设定一个,,模板,使用隐马尔科夫模型识别与种子复合词具有相同或相似信息的复合词。算法采用难胺椒ǎü匝习不断增大复合词列表的规模。实验结果表明,本算法可以满足广告系统关键词推荐的信息抽取需求,并具有较高的准确率和可以接受的召回率。针对文本分析问题中情感词抽取的问题,本文提出了基于最大熵和琈琑0宓闹形那楦写食槿∷惴āMü晕谋旧瓒ㄒ北京邮电大学博士学位论文
知识水坝***@pologoogle为您整理
⑾⑺饕褂萌挝裰械闹信息、词性信息作为特征,对情感词进行识别和抽取。实验结果表明,本算法具有较高的召回率和准确率,同时在某些特征组合的情况下,情感词抽取具有良好的鲁棒性。诩喽胶桶爰喽降奈谋厩楦蟹掷唷U攵酝缟洗罅苛餍幸衾帧网友原创、改编的音乐,本文提出了一种对音乐歌词的情感分类方法。首先,通过对歌词语料库的词进行统计发现其分布基本符合齐夫定律,但与中文分类通用语料库计划文本分类测试数据写视锓植悸杂差异。由于对歌词表现的情感进行的分类不同于按照主题对普通文本的分类任务,所以需要抽取更多表现情感色彩的特征。本文在DP偷按词性过滤槿「嗟母璐是楦杏镆逄卣鳎⑻岢隽舜懈咚瓜妊楹指数先验的最大熵模型的分类算法对歌词的情感特征进行建模。实验结果表明,具有高斯先验和指数先验的最大熵模型非常适合用于歌词情感分析问题。针对实际的情感分类中标注数据不足的情况,本文提出了一种基于半监督学习的文本情感分类算法。假设空间中存在一个情感流形结构,将待分类文本看作是这个情感流形上抽样的点。首先,利用这些点的邻域信息进行构图,每个点与它近邻的边的权重使用它的近邻线性加权表示;然后,将该图看作是一个概率转移矩阵,各类别的标签在此矩阵上扩散完成情感分类过程。在电影评论和中文歌词语料集上的实验结果表明,该算法在文本情感分类上具有良好的性能。谋竟鄣慵焖鳌R员疚淖髡瓴渭拥腃械拿嫦主题的中文文本观点检索任务为主线,,在经过编码转换、分词等预处理后,题词进行检索,然后使用本文中文本情感分类算法建立倾向性模型和极性模型,对检索得到的相关文本进行文本倾向性判断,并对检索结果重新排序。在数据集上的评测指标表明,本文设计的文本观点检索系统达到了较高的性能水平。关键词:短文本计算复合词抽取情感词抽取情感分类观点检索北京邮电大学博士学位论文摘要Ⅱ
知识水坝***@pologoogle为您整理
’,Ⅵ吧甒...畂、.,鏽甋.,.,瑆琣畂.,行瑆壳鷈’’,.
,琺琲印,可畂⑺鹖诧.,印面一Ⅳ菷,甒絤╤鷄瑆..,.、Ⅳ.。甌,叩’,甌仔猤,
膆,鰊.,皿“...,,.—.琧,瓵〆瓻猰,.,,,猭,.’..
尘亘嫠訇础日期::爻口、’ふ肌寸日期:.颗独创性虼葱滦声明关于论文使用授权的说明作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中
WEB文本挖掘中关键问题的研究(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.