下载此文档

基于云计算的文本挖掘算法研究 PPT课件.ppt


文档分类:IT计算机 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21 下载此文档
文档列表 文档介绍
基于云计算的文本挖掘算法研究
霍立亚
文本挖掘技术
主要技术思想
首先利用文本切分技术,对文本信息进行抽取,把文本形式的数据转化为能描述原文本内容的结构化数据;然后利用分类、聚类等技术,形成结构化文本并根据这种结构发现新的知识和获取相应的信息之间的关系。
关键技术
一、中文分词
文本挖掘中中文处理与英文处理最大的区别就是需要中文分词。英文语句都是由数个单词构成,每个单词后都会有一个空格,计算机可以很容易的通过空格识别句子中的单词。由于中文句子内部每个字之间不像英文语句那样有间隔,因此要想理解句子的意思就必须对它进行有意义的拆分,这是中文自然语言理解的基础。然而计算机本身是不能够理解中文语句的意思的。中文自动分词技术就是人为的设计一些规则,使计算机可以把中文句子分割成有意义的语音的单
元。
中文分词技术
1、基于词典方法
这种方法也叫机械分词法,它是将待分词的字串S按照一定的算法搜索子串并
与一个或多个分词词典中的词条进行匹配,如果匹配成功则认为该子串是一候选
分词。然后继续对剩下的部分进行分割处理,直到匹配完字串S中所有的可能词
汇;常用的几种分词方法如下:
(1)最短路径法(使每一句中切出的词数最小)。
(2)正向最大匹配法(按照由左到右的方向)。
(3)逆向最大匹配法(按照由右到左的方向)。
2、基于规则方法
基于规则的方法的主要思想是在分词的同时对句子进行语法和语义分析并利用这些分析信息来处理出现的歧义现象。即是说需要通过规则的设定使计算机能够对句子的理解与人的理解一样,从而达到分词的效果;其由于它是模拟人对句子的理解过程,如果在没有大量的语言知识和信息的支持下,实现这种方法是很困难的。并且汉语语言是十分复杂和庞大的,事实上将大量语言信息组织成机器可直接接收的形式是相当困难的。因此目前基于理解的分词系统还处在试验阶段,这种方法通常是与其他算法结合起来使用。
3、基于统计方法
基于统计方法就是在分词过程中或者分词后对语料中相邻共现的字的组合的频度进行统计,计算它们的互信息。互现信息体现了字与字之间结合的紧密程度。基于统计方法的基本思想是,通过设定一个适当的阈值(此阈值的确定通常是通过多次实验得出的),当字组的互信息高于此阈值时,则认为此字组成词。这种方法的优点是不需要分词词典,只需要统计语料中的字组频度即可,因而又叫做无词典分词法。这种方法的局限性是对出现频率高但本身不是词的常用字组的识别效果不佳,例如“我们的”、“中的”、“的是”等。
其基本思路是:
首先载入词典,然后进行原子切分,在此基础上进行N-最短路径粗切分,找出前N个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤。
该分词系统的主要是思想是先通过CHMM(层叠形马尔可夫模型)进行分词,通过分层,既增加了分词的准确性,又保证了分词的效率,共分五层,
中科院分词算法

基于云计算的文本挖掘算法研究 PPT课件 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yuzonghong1
  • 文件大小286 KB
  • 时间2017-11-29
最近更新