下载此文档

数据分析与可视化(ppt课件).pptx


文档分类:IT计算机 | 页数:约33页 举报非法文档有奖
1/33
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/33 下载此文档
文档列表 文档介绍
数据分析与可视化
——文本数据分析
问 题
利用计算机哪些技术可以对网络信息进行自动检索和归档?
如何统计一篇给定文章中多次出现的词语,进而概要分析文章的内容?
英文资料和中文资料的分析方法是否相同?
关于文本词频统计
词频统计的内涵:
累加问题,即对文档中的每个词设计一个计数器,词语出现一次,计算器加1,词和次数是一对出现,构成
<单词>:<出现次数>
键值对:字典
词频统计问题的IPO描述
文中最长出现的若干个单词及出现的次数
处理
输出
输入
从文件中读取一篇待分析的文章
采用字典数据结构统计词语出现的频率
文本词频统计方法
对于一段英文文本,希望提取其中的单词,可以使用字符串处理的split( )方法即可。
例:>>> “I am Chinese”.split( )
['I', 'am', 'Chinese']
对于中文“我是中国人”,获得单词非常困难。
jieba是Python中一个重要的第三方中文分词函数库。
Hamlet英文词频统计实例
问题分析
第一步:找寻Hamlet文本文件,;
第二步:分解并提取英文文章的单词:
( )函数统一字母为小写
( )方法将英文单词的分隔符(空格、标点符号或者特殊符号)统一为空格,再提取单词。
第三步:对每个单词进行计数:设单词保存在变量word
问题分析
中,使用一个字典类型counts={ },<单词>:<出现次数>
统计单词出现的次数可采用如下代码:
counts[word]=counts[word]+1
当遇到新词时,单词没有出现在字典结构中,则需要在字典中新建键值对:counts[new_word]=1
因此,无论词是否在字典中,加入字典counts中的处理逻辑可以统一表示为:
问题分析
if word in counts:
counts[word]=counts[wrod]+1
else:
counts[word]=1
简化为:
counts[word]=(word,0)+1
(word,0)方法表示:如果word在counts中,返回word对应的值,否则返回0。
问题分析
第四步:对单词的统计值从高到低进行排序,输出前10个(或者其他数字)高频词语,并格式化打印输出。
当待排序列表的元素由多字段构成时,我们可以通过
(iterable,key,reverse)
的参数key来制定我们根据那个字段对列表元素进行排序。    key=lambda 元素: 元素[字段索引]    例:对元素第二个字段排序,则   key=lambda y: y[1] 
备注:这里y可以是任意字母,等同 key=lambda x: x[1]

数据分析与可视化(ppt课件) 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数33
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1017848967
  • 文件大小652 KB
  • 时间2021-12-01
最近更新