什么是大数据?在读这本书之前,我想大数据嘛,那就是很大很大的数据,也就是很多的数据咯。这本书给出了大数据的更准确的定义,大数据不是数据量上的大,其实其意义是相对样本数据而言的。以前我们采集数据时,由于采集和处理能力的限制,针对规模较大的数据时,我们的做法其实是采集和分析样本数据。而现在由于计算能力和存储能力已经发生本质的改变,我们能够采集和处理我们想要分析研究的所有数据,因此这里的大数据,是指的全体数据。
同样的,以前由于是采集样本,我们必须要求样本的数据必须能够准确地反映总体数据,因此样本的精确性要求很高,样本数据不精确带来的偏差,往往有可能使我们的整体的分析完全错误。但现在由于我们是采集处理所有的数据,这样不可能去保证采集的每一个数据都是完全可靠采用新的方法面对随时带来的混杂性。
译者在序里面说他不同意作者关于因果关系和相关关系的观点,但看了书中内容之后,我不得不说作者的观点还是有一定道理的。作者认为在大数据的背景下,我们现在需要更多去关注相关关系。通过大数据学习分析得出两个事物之间存在某种关联,我们只需要去利用这种相关即可,至于其中背后的因果关系,对于我们来说可能过于复杂,也没必要去深究。
之前刚看过丹尼尔·卡尼曼的《思考,快与慢》,对其中的观点分析还是很震撼并且非常认同的。其中提到的就有我们一般的思考都是趋于找出一个故事中的因果联系,即便我们所认为的因果关系在很多时候并不真的存在。同样对于上面的问题也是一样的,通过大数据我们分析得出一定的相关关系,我们总是习惯去找背后的原因,其中隐藏的因果关系。但是我们所认为的那样的因果关系是真是存在的吗?
之前对佛教有一段时间非常感兴趣。佛教认为万物即因果,所有的现在都是有之前我们种下的因。爱因斯坦说“上帝不掷骰子”,但后来的量子理论其实说上帝他就是掷骰子来着的。
我确信是5年前自己的决定和所做所为造就了今天的我,这是所谓的因果,但我不知道5年前的我是由什么样的10年的我造成的。我记得5年前的我很痛苦迷茫,甚至有一段时间每天会去念金刚经,现在虽然有时也会痛苦和迷茫,但和之前的那个我也已然完全不同。那个时候的我在自学编程,结果今天成了一个苦逼的程序猿;今天的我决定要成为一个产品经理,5年之后的我会是一个什么样子?
有点扯远了。
书里面作者除了提出几个还不错的观点,其中大部分各种现实商业社会的案列分析觉得都不太必要。对于大数据,写一篇几千一万字的文章已经可以将要说的很多观点详尽地表达出来,整出一个140页包含三大部分8个章节的书来,读着就感觉有点冗长了。
维克多·迈尔,数据科学的技术权威,他是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。他曾先后任教于世界最著名的几大互联网研究学府。现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中心网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。