下载此文档

数据分析与数据挖掘.doc


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
数据分析与数据挖掘
作为信息的具体表现形式,数据的重要性显而易见,各种数据的获取和利用,一直贯穿在各行各业。在大数据时代,数据的获取已经不是问题,但如何对得到的数据进行分析,却往往千差万别。
数据分析(Data Ana数据分析与数据挖掘
作为信息的具体表现形式,数据的重要性显而易见,各种数据的获取和利用,一直贯穿在各行各业。在大数据时代,数据的获取已经不是问题,但如何对得到的数据进行分析,却往往千差万别。
数据分析(Data Analysis)就是用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。但同样的数据,不同人分析的结果,却可能大相径庭。
武漢市新冠病毒核酸筛查“十天大会战”结束,这几天,无数武汉人的朋友圈被阴性检测结果刷屏。出乎很多人的意料,这10天检测出来的无症状感染者仅有218人,%。而在此之前,很多人不相信国内的数据,根据国外发病情形和数据,以及无症状感染者与确诊人数的比例,来预测武汉新冠肺炎感染人数,多数人分析的结果是,武汉感染的人数可能超过50万人!
这种巨大的预测偏差显然是数据分析和利用过程不正确造成的。但有人却要回头质疑武汉检测结果的准确性和检测能力。对于10天完成近千万人的全民核酸筛查,这样的速度和检测能力,要超过医疗条件和检测能力都非常强的美国若干倍。从会战开始前几天的日检测数量来看,7万,11万,22万,虽然速度在不断上升,但距离日均百万的预期还是相差较远,但当高峰期达到日检测147万时,有人又不相信了。
小时候很多人都做过类似这样的智力题:一堆看起来完全一样的乒乓球,其中有一个质量稍轻的次品,如何利用天平用最少次数的称量来找出这个次品。大家都会想到分组称量,天平两端平衡时,两组乒乓球应该都是正常的。在计算机程序设计中,类似的方法已发展为各种查找算法。用到武汉核酸筛查方法上,就是“混样检测”,10个样本混到一起检测一次,如果是阴性则全部是阴性,如果是阳性再分别检测。在预估阳性率很低的前提下,混样检测极大地减少了检测次数,而混样造成病毒浓度的稀释在30个以内的样本混合时不会影响检出。
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。从这里来看,外行进行数据分析和预测,往往会忽视很多专业上的可能,得出完全错误的结果。
从已有的各种数据中,找到不容易看出的内在关联,有时还能够挖掘出另外的丰富信息。这就是数据挖掘,经典的例子有大家非常熟悉的“啤酒与尿布”,甚至一些杜撰的商业营销案例。
数据挖掘(Dat

数据分析与数据挖掘 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人王善保
  • 文件大小14 KB
  • 时间2022-08-17
最近更新