下载此文档

数据分析与可视化（ppt课件）.pptx

文档分类：IT计算机 | 页数：约33页举报非法文档有奖

1/33

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/33 下载此文档

文档列表 文档介绍

数据分析与可视化
——文本数据分析
问题
利用计算机哪些技术可以对网络信息进行自动检索和归档？
如何统计一篇给定文章中多次出现的词语，进而概要分析文章的内容？
英文资料和中文资料的分析方法是否相同？
关于文本词频统计
词频统计的内涵：
累加问题，即对文档中的每个词设计一个计数器，词语出现一次，计算器加1，词和次数是一对出现，构成
<单词>：<出现次数>
键值对：字典
词频统计问题的IPO描述
文中最长出现的若干个单词及出现的次数
处理
输出
输入
从文件中读取一篇待分析的文章
采用字典数据结构统计词语出现的频率
文本词频统计方法
对于一段英文文本，希望提取其中的单词，可以使用字符串处理的split( )方法即可。
例：>>> “I am Chinese”.split( )
['I', 'am', 'Chinese']
对于中文“我是中国人”，获得单词非常困难。
jieba是Python中一个重要的第三方中文分词函数库。
Hamlet英文词频统计实例
问题分析
第一步：找寻Hamlet文本文件，；
第二步：分解并提取英文文章的单词：
( )函数统一字母为小写
( )方法将英文单词的分隔符（空格、标点符号或者特殊符号）统一为空格，再提取单词。
第三步：对每个单词进行计数：设单词保存在变量word
问题分析
中，使用一个字典类型counts={ }，<单词>：<出现次数>
统计单词出现的次数可采用如下代码：
counts[word]=counts[word]+1
当遇到新词时，单词没有出现在字典结构中，则需要在字典中新建键值对：counts[new_word]=1
因此，无论词是否在字典中，加入字典counts中的处理逻辑可以统一表示为：
问题分析
if word in counts:
counts[word]=counts[wrod]+1
else:
counts[word]=1
简化为：
counts[word]=(word,0)+1
(word,0)方法表示：如果word在counts中，返回word对应的值，否则返回0。
问题分析
第四步：对单词的统计值从高到低进行排序，输出前10个（或者其他数字）高频词语，并格式化打印输出。
当待排序列表的元素由多字段构成时，我们可以通过
(iterable，key，reverse)
的参数key来制定我们根据那个字段对列表元素进行排序。　　key=lambda 元素: 元素[字段索引] 　　例：对元素第二个字段排序，则　　key=lambda y: y[1]
备注：这里y可以是任意字母，等同 key=lambda x: x[1]

数据分析与可视化（ppt课件）来自淘豆网m.daumloan.com转载请标明出处.

数据分析与可视化（ppt课件）.pptx

数据可视化分析课件

PowerBI数据分析与数据可视化数据分析表达式ppt课件

第四章数据分析与可视化(ppt课件)

数据分析与可视化（ppt课件）

Excel数据分析与图表可视化 ppt课件

数据分析与可视化表达 ppt课件

数据分析可视化PPT图表课件

数据分析可视化ppt模板课件

数据分析与可视化课件

Excel数据分析与图表可视化ppt课件