泄密者爱德华·斯诺登(EdwardSnowden)还在寻求容身之所的时候,美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了不安和愤怒。奥巴马当局声称,监听数据带来了安全,然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。麻省理工学院的研究者约翰·古塔格(JohnGuttag)和柯林·斯塔尔兹(CollinStultz)创建了一个计算机模型来分析之心脏病病患丢弃的心电图数据。他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常者一年内死于第二次心脏病发作的机率比未出现者高一至二倍。这种新方法能够识别出更多的,无法通过现有的风险筛查被探查出的高危病人。图片来源:JasonGrow2012/HumanFaceofBigData麻省理工学院的研究者约翰·古塔格(JohnGuttag)和柯林·斯塔尔兹(CollinStultz)创建了一个计算机模型来分析之心脏病病患丢弃的心电图数据。他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常者一年内死于第二次心脏病发作的机率比未出现者高一至二倍。这种新方法能够识别出更多的,无法通过现有的风险筛查被探查出的高危病人。图片来源:JasonGrow2012/HumanFaceofBigData数据挖掘这一术语含义广泛,指代一些通常由软件实现的机制,目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。威斯康星探索学院主任大卫·克拉考尔(DavidKrakauer)说,数据量的增长——以及提取信息的能力的提高——也在影响着科学。“计算机的处理能力和存储空间在呈指数增长,成本却在指数级下降。从这个意义上来讲,很多科学研究如今也遵循摩尔定律。”在2005年,一块1TB的硬盘价格大约为1,000美元,“但是现在一枚不到100美元的U盘就有那么大的容量。”研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论“之所以发生是因为我们正处于惊天动地的变革当中,而且我们正以前所未有的方式感知它。”克拉劳尔说。随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹,大数据不断增长的商业影响也在如下时刻表现出来:你搜索一条飞往塔斯卡鲁萨的航班,然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息你观赏的电影采用了以几十万G数据为基础的计算机图形图像技术你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润用算法预测人们购票需求,航空公司以不可预知的方式调整价格智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信息大数据在看着你吗?除了安全和商业,大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器,传回愈发难以驾驭的数据流,于是人们需要日益强大的分析能力。在气象学、石油勘探和天文学等领域,数据量的井喷式增长对更高层次的分析和洞察提供了支持,甚至提出了要求。 2005年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局(NASA)的Topex/Poseidon卫星、Jason-1卫星,以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的QuikScat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计-地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布来自船载、系泊式测量仪器,以及国际Argo海洋观测系统。2005年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局(NASA)的Topex/Poseidon卫星、Jason-1卫星,以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的QuikScat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计-地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布来自船载、系泊式测量仪器,以及国际Argo海洋观测系统。这幅2005年6月至2007年12月海洋表面洋流的示意图集成了带有数值模型的卫星数据。漩涡和窄洋流在海洋中传送热量和碳。海洋环流和气候评估项目提供了所有深度的洋流,但这里仅仅使用了表层洋流。这些示意图用来测量海洋在全球碳循环中的作用,并监测地球系统的不同部分内部及之间的热量、水和化学交换。在医学领域,2003年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。那次突破性
数据之舞:大数据与数据挖掘 来自淘豆网m.daumloan.com转载请标明出处.