下载此文档

探索性数据分析.ppt


文档分类:论文 | 页数:约56页 举报非法文档有奖
1/56
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/56 下载此文档
文档列表 文档介绍
探索性数据分析肖波中央民族大学NN业l面山a业趣探索式数据分析日统计推理a总体和样本日建立模型日概率分布日探索式数据分析日科学数据处理数据科学家的角色日案例研究NN业l面山a业趣探索性数据分析所谓探索性数据分析(ExploratoryDataAnalysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、計算特征量等手段探索数据的结构和规律的一种数据分析方法。NN业l面山a业趣数据每天都在产生我们生活的世界是复杂的,随机的和不确定的。同时它又是一个生成大数据的机器。当我们通勤于地铁和出租车时,当我们的血液流经我们的身体时,当我们通过浏览器在因特网购物、发邮件、完成工作和看股票时,当我们行动、饮食、与朋友谈话时,当工厂生产出产品时,所有这一切都在生成数据。,你就某种程度上掌握了这个世界或抓住了世界的轨迹。但是你不可能在一个有几百万数据的大型Excel表或数据库上遍历,获取图形,理解现实和处理它所生成的数据。ε故你需要一个新的理念,去简化这些捕获的数据,使之更加容易理解,方法更加简洁,使得数据适合于建立数学模型和函数。这就是大家知道的统计方法。ε从现实到数据又从数捃回到现实的全过程就叫统计推理。。它可以是任何对象,如推特、照片或星球的全体。如果我们可以测度这些对象的特征,我们就要有一个完整的观测集。通常用常数N来表示对于总体的观测数量。总体中的N个单独个体就是样本。获取样本的过程叫采样。NN业l面山a业趣3抽样当我们抽样时,我们是抽取总体中的一个大小为N的子集,以便对总体进行推理和得岀某种结论。从总体取得子集有各种不同的方法。你要确保合理的采样机制,因为它可能为数据带来偏差并扭曲结果。所以样本并不是总体收缩了的“小我”版本。一旦发生这种情况,你的所有结论都是错误的和歪曲了的。NN业l面山a业趣抽样案例研究在BigCorp公司邮件的案例中,你可以制作一个全体雇员的表,然后从所有他们已发送的邮件中随机选择十分之一。这些邮件就是你的样本。你也可以每天从发送的邮件中随机抽取十分之一作为你的样本。两个方法都是有道理的,两方法也都抽取了同样样本个数。但是如果你用得到的样本计算平均每个人发送的邮件个数和用样本来估算BigCorp公司每个雇员发送邮件数的概率分布,你也许会得到完全不同的答案。,我们就可以观察所有的事物吗?还需要考虑总体和样本吗?上例中如果我们取得了所有的邮件,我们还需要抽样吗?NN业l面山a业趣大数据也需要抽样日在当前大数据的热门讨论中,人们主要聚焦于用Hadoop这样的企业解决方案来应对大数据引起的工程和计算挑战,忽略了抽样这一合理的解决方法。可是在Google公司软件工程师,数据科学家和统计学家一直在使用抽样方法。你需要多少数据取决于你的目标是什么。对于目标为分析和推理来说没必要取得全部时间的全部数据。而在有的情况下,出于服务目的,为了取得正确的信息以润色个用户界面时(可视化图形),对于特殊的用户就需要全部信息。

探索性数据分析 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息