路,思路有了创新,有了拓展,相应的社会也就会有很大的改变。紧接着其次部分作者从万事万物数据化和数据交叉复用的巨大价值两个方面,讲解并描述驱动大数据战车在材质和智力方面对前滚动的最根本动力。第三部分则是阐述了大数据时代下的弊端以及在管理上的措施。个人认为本书的精髓部分是第一部分,第一部分的三个观点涉及的面很广,包括统计学、逻辑学、哲学等。后两个部分都是以第一部分这三个观点为基础绽开阐述的。
这本书给我感受最深的就是这三个转变,或者说是三个观点,可以说是哲学上说的世界观,因为世界观确定方法论,所以这三个观点对传统看法的颠覆,就会导致各种变革的发生。首先是第一个,作者认为在抽样探讨时期,由于探讨条件的欠缺,只能以少量的数据获得最大的信息,而在大数据时代,我们可以获得海量的数据,抽样自然就失去它的意义了。放弃了随机分析法这种捷径,采纳全部的数据。作者用大数据与乔布斯的癌症治疗例子说明白运用全部数据而非样本的意义,列举了日本“相扑”等来证明运用全体数据的重要性。这个观点足以引起统计学乃至社会文明的变革,因为统计抽样和几何学定理、万有引力一样被看做文明得以建立坚固的基石。我对这个观点还是比较认同的,假如真能收集到整体的数据而且分析数据的工具也足够先进,自然是全体数据探讨得出的结果更令人信服。但是这个观点也过于肯定,就算是在大数据时代要想收集到全体数据还是不太可能实现的,因为收集全体数据要付出的代价有时会很大。比如说,你要检测食品中致癌物质是否超标,你不行能每一件食品你都检测一遍吧。
其次,要效率不要肯定的精确。作者说,执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的。假如不接受混乱,剩下95%的非结构化数据都无法被利用。作者是基于数据不行能百分之百正确的考虑而做出这样的推断的,假如采纳小数据一个数据的错误就会导致结
1 果的误差很大,但是假如数据足够多、数据足够杂那得出的结果就越靠近正确答案。大数据时代要求我们重新谛视精确性的优劣,甚至还说到大数据不仅让我们不再期盼精确性,也让我们无法实现精确性。谷歌翻译的胜利很好地证明白这一点,谷歌的翻译系统不像Candide那样精确地翻译每一句话,它谷歌翻译之所以优于IBM的Candide系统并不是因为它拥有更好的算法机制,和微软的班科和布里尔一样,谷歌翻译增加了各种各样的数据,并且接受了有错误的数据。
而在阅读这本书时,发觉这本书中争议最大的一个观点,不仅是读者,就算是本书的译者也在序言中明确地说到他不认同“相关关系比因果关系更重要”的观点。作者觉得相关关系对于预料一些事情已经足够了,不用花大力气去探讨他们的因果关系。作者用林登的亚马逊举荐系统的胜利,证明了大数据在分析相关性方面的优势以及在销售中获得的胜利。沃尔玛也是充分利用并挖掘各类数据信息的代表,从啤酒和尿布的案例,以及作者举的有关蛋挞和飓风天气的案例,都说明白驾驭了相关关系对于他们策略的帮助。一句话,知道是什么就够了,不用知道为什么。很明显作者所举的例子都是属于商业领域的,但是对于其他领域来说这个观点就值得商榷了。比如说,在科学探讨领域,你须要知其然也须要知道其所以然,找到事务发生的原理。用文中的一个例子说明,乔布斯测出整个基因图谱来治疗癌症,但是你治疗癌症你必需知道癌症发病的原理,知道哪一段基因导致了这种疾病,不行能只是说收集各种数据,然后利用其相关性来推断哪里出现了问题。
大数据时代读书心得 来自淘豆网m.daumloan.com转载请标明出处.