不是因果关系,而是相关关系
林登与亚马逊推荐系统
格雷格·林登(Greg Linden)——亚马逊的软件工程师
- 亚马逊的内容最初是人工的(书评家、编辑写书评、推荐新书),成本高。
- 杰夫·贝索斯(Jeff Bezos),亚马逊创始人,决定尝试“根据客户个人的购物喜好,为其推荐具体的书籍,(通过样本分析找到客户之间的相似性),成效不好。
- 林登和通识申请了“item to item”协同过滤技术的专利,因为估算可以提前进行,所以推荐系统快如闪电。(找到产品之间的关联性),系统使用了所有的数据,推荐会更理想。
知道人们为什么对这些信息感兴趣可能是有用的,但是这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅是电子商务。
关联物,预测的关键
相关关系的核心是量化两个数据之间的数理关系。
- 相关关系强是指当一个数据值增强时,另一个数据值恒友可能也会随之增加。
- 相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。
- 相关关系没有绝对,只有可能性。
通过给我们找到一个现象的良好的关联物。相关关系可以帮助我们捕捉现在和预测
未来。
沃尔玛,请把蛋挞与飓风用品摆在一起
- 2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,包括每一位顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日的天气。
- 每当季节性飓风来临之际,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以便行色匆匆的顾客从而增加销量。
- 我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不容易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于我们经常忽略了它的创新性。
FICO,“我们知道你明天会做什么”
- 2011年,FICO提出“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来怪异的变量。这个评分会帮助医疗机构节省开支,因为它们会知道那些人需要得到它们的用药提醒。
- 有私家车和使用抗生素并没有因果关系,这只是一种相关关系。
美国折扣零售商塔吉特与怀孕测试
- 在完全不和准妈妈对话的前提下预测一个女性会在什么时候怀孕。
- 公司分析团队查看了签署婴儿登记簿的女性的消费记录,找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。
- 这些相关关系甚至使得零售商能够准确地预测预产期,这样就能够在孕期的每个阶段给客户送相应的优惠券,这才是塔吉特公司的目的。
UPS与汽车修理
- UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。
- 以前UPS没两三年就会对车辆的零件进行定时更换。但这种方法不太有效。
- 通过监测车的各个部位,UPS如今只需要更换要更换的零件,从而节省了好几百万美元。
安大略理工大学的卡罗琳·麦格雷戈博士和一支研究队伍与IBM一起和很多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产儿的病情诊断。系统会监控16个不同地方的数据,在明显感染症状出现的24小时前,系统就能监测到早产儿细微的身体变化发出的感染信号。这个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。这正是这个系统的价值!
“是什么”,而不是“为什么”
幸福的非线性关系
- 多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的。
- 但对于收入在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。
- 相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。
- 因果关系只是一种特殊的相关关系。
- 大数据推动了相关关系分析。
- 相关关系分析通常情况下能取代因果关系其作用,即使不可取代的情况下,它也能指导因果关系其错用。
改变,从操作方式开始
- 纽约沙井盖爆炸
- 鲁丁和她的同事必须在工作中使用所有的数据,而不能是样本。
- 杂乱的数据整理好给机器处理,由此发现了大型沙井盖爆炸的106种预警情况。
我们需要改变我们的操作方式,使用我们能收集的所有数据,而不仅仅是使用样本。我们不能把精确性当成重心。我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
大数据,改变人类探索世界的方法
- “理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念 ,这实在荒谬。
- 大数据是在理论的基础上形成的。