下载此文档

大数据与数据挖掘之文本挖掘课件.ppt


文档分类:IT计算机 | 页数:约56页 举报非法文档有奖
1/56
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/56 下载此文档
文档列表 文档介绍
大数据与数据挖掘之文本挖掘
文本挖掘 背景
数据挖掘大部分研究关键针对结构化数据, 如关系 、事务 和数据仓库数据。
现实中大部分数据存放在文本数据库中, 如新闻文章、研究论文、书籍、WEB页面等。
存放在文本数据库中 数据是半结构化数据, 文档中可能包含结构化字段, 如标题、作者、出版社、出版日期 等, 也包含大量非结构化数据, 如摘要和内容等。
1、文本挖掘概述
*
大数据与数据挖掘之文本挖掘
文本挖掘概念
文本挖掘意在经过识别和检索令人感爱好 模式, 进而从数据源中抽取有用 信息。文本挖掘 数据源是文本集合, 令人感爱好 模式不是从形式化 数据库统计里发觉, 而是从非结构化 数据中发觉。
*
大数据与数据挖掘之文本挖掘
文本挖掘 过程
预处理
文档建模
相同性计算
信息检索
文本分类
文本聚类
模型评价
*
大数据与数据挖掘之文本挖掘
预处理
把汉字 汉字序列切分成有意义 词, 就是汉字分词, 也称为切词。
“我是一个学生”分词 结果是: 我是一个学生。
和平民主
和平、民主; 和、平民、主
提升人民生活水平
提升、高人、人民、民生、生活、活水、水平
大学生活象白纸
大学、生活、象、白纸
大学生、活象、白纸
*
大数据与数据挖掘之文本挖掘
最大匹配分词法
S1="计算语言学课程是三个课时"
设定最大词长MaxLen= 5
S2= " "
*
大数据与数据挖掘之文本挖掘
(1)S2=“”; S1不为空, 从S1左边取出候选子串
W="计算语言学";
(2)查词表, “计算语言学”在词表中, 将W加入到S2中, S2=“计算语言学/ ”, 并将W从S1中去掉, 此时S1="课程是三个课时";
(3)S1不为空, 于是从S1左边取出候选子串W="课程是三个";
(4)查词表, W不在词表中, 将W最右边一个字去掉, 得到W="课程是三";
(5)查词表, W不在词表中, 将W最右边一个字去掉, 得到W="课程是";
*
大数据与数据挖掘之文本挖掘
*
大数据与数据挖掘之文本挖掘
(11)查词表, W不在词表中, 将W最右边一个字去掉, 得到W="是三"
(12)查词表, W不在词表中, 将W最右边一个字去掉, 得到W=“是”, 这时W是单字, 将W加入到S2中, S2=“计算语言学/ 课程/ 是/ ”,
并将W从S1中去掉, 此时S1="三个课时";
􀀀􀀀
(21)S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”, 此时S1=""。
(22)S1为空, 输出S2作为分词结果, 分词过程结束。
*
大数据与数据挖掘之文本挖掘
停用词
指文档中出现 连词, 介词, 冠词等并无太大意义 词。
英文中常见 停用词有the, a, it等
汉字中常见 有“是”, “ ”, “地”等。
停用词消除能够降低term 个数, 降低存放空间。停用词 消除方法:
(1)查表法: 建立一个停用词表, 经过查表 方法去掉停用词。
(2)基于DF 方法: 统计每个词 DF, 假如超出总文档数目 某个百分比(如80%), 则作为停用词去掉。
*
大数据与数据挖掘之文本挖掘

大数据与数据挖掘之文本挖掘课件 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息