之所以取这样一个题目,是想说这本书不必买也不必看,因为全书都绕着圈子在阐述三个观点。做个摘抄足矣。
一.概论
所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。(这里指的是商业价值和社会价值)
二.背景
人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多我们以前认为和“信息”根本搭不上边的事情。大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度,是主宰这场游戏的关键。
三.大数据时代的法则
(你只需要了解这个核心观点以及其具体内容即可)
第一,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
第二,研究数据如此之多以至于我们不再热衷于追求精确度。
第三,因前两点而促成,即我们不再热衷于寻找因果关系。
简单来说就是:
1.要分析于某事物相关的所有数据,而不是依靠分析少量的数据样本。
2.我们乐于接受数据的纷繁复杂,而不再追求精确性。
3.不再探求难以捉摸的因果关系,转而关注事物的相关关系。
关于第一点——样本VS总体
采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。
随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。
我们不能满足于正太分布一般中庸平凡的景象。生活中真正有趣的事情经常藏匿在细节之中,而采样分析却无法捕捉到这些细节。所以,我们现在经常会放弃样本分析这条捷径,选择收集全面而完整的数据。我们需要足够的数据处理和存储能力,也需要最先进的分析技术。当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。
关于第二点——复杂VS精确
大数据时代要求我们重新审视精确性的优劣。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。大数据的简单算法比小数据的复杂算法更有效。
错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。这并不代表系统不知道正确的数据是多少,只是当数量规模变大的时候,确切的数据已经不那么重要了。
要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
关于第三点——因果关系VS相关关系
亚马逊的推荐系统:如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书。(推荐算法的经典名句)
知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户做出了选择,要把握客户做决定的真正原因,因此专业技能和多年经验受到高度重视。行业专家和技术专家的光芒都会因为统计学家和数据分析师的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。
亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。通过给我们找到一个现象的良好的相关物,相关关系可以帮助我们捕捉现在和预测未来。这种相关关系分析法更准确、更快,而且不易受偏见的影响。
相关笔记:
1.为什么需要大数据?
人有两种思维,一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。
快速思维模式使人偏向用因果联系来看待周围的一切,即使这种关系并不存在。在古代,这种快速思维模式是很有用的,它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是,通常这种因果关系都是并不存在的。与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。在小数据时代,很难证明由直觉而来的因果联系是错误的。因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻洞见。
数字化带来了数据化,但是数字化无法取代数据化。当文字变成数据,它就大显神通了——人可以用之阅读,机器也可用之分析。
有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
2.大数据时代的企业发展之路
大数据价值链的3大构成:数据本身、技能与思维。根据所提供价值的不同来源,分别出现了三种大数据公司:基于数据、基于技能、基于思维。(数据拥有者、数据分析者、数据平台)
3.大数据之弊
人们信息泄露的严重性自不必说,“棱镜门”就说明了一切。想在大数据时代用技术方法来保护隐私也是天方夜谭。
如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两,比如谷歌地图的部分马赛克。
另一条技术途径——匿名化,在大部分情况下也不可行,因为大数据促进了数据内容的交叉检验,我们会结合越来越多不同来源的数据,比如多个特色标签会定位到单个人。
4.其他笔记
莫里的导航图是大数据的最早实践之一,他创建了一个标准的表格来记录航海数据,并且要求美国所有的海军舰艇在海上使用,返航后再提交表格。许多船挂了一面特殊的旗帜,表明它参与了这个信息交流计划。这些旗帜就是出现在一些网站上的友情链接的前身。
一个用于描绘人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。
全文完。括号里是个人注解。PS:字都是一个个打出来的,方便记忆。