Big Data - 03. 更好

不是因果关系,而是相关关系

林登与亚马逊推荐系统

格雷格·林登(Greg Linden)——亚马逊的软件工程师

  • 亚马逊的内容最初是人工的(书评家、编辑写书评、推荐新书),成本高。
  • 杰夫·贝索斯(Jeff Bezos),亚马逊创始人,决定尝试“根据客户个人的购物喜好,为其推荐具体的书籍,(通过样本分析找到客户之间的相似性),成效不好。
  • 林登和通识申请了“item to item”协同过滤技术的专利,因为估算可以提前进行,所以推荐系统快如闪电。(找到产品之间的关联性),系统使用了所有的数据,推荐会更理想。

知道人们为什么对这些信息感兴趣可能是有用的,但是这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅是电子商务。


关联物,预测的关键

相关关系的核心是量化两个数据之间的数理关系。

  • 相关关系强是指当一个数据值增强时,另一个数据值恒友可能也会随之增加。
  • 相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。
  • 相关关系没有绝对,只有可能性。
    通过给我们找到一个现象的良好的关联物。相关关系可以帮助我们捕捉现在和预测
    未来

沃尔玛,请把蛋挞与飓风用品摆在一起

  • 2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,包括每一位顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日的天气。
  • 每当季节性飓风来临之际,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以便行色匆匆的顾客从而增加销量。
  • 我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不容易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于我们经常忽略了它的创新性。

FICO,“我们知道你明天会做什么”

  • 2011年,FICO提出“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来怪异的变量。这个评分会帮助医疗机构节省开支,因为它们会知道那些人需要得到它们的用药提醒。
  • 有私家车和使用抗生素并没有因果关系,这只是一种相关关系。

美国折扣零售商塔吉特与怀孕测试

  • 在完全不和准妈妈对话的前提下预测一个女性会在什么时候怀孕。
  • 公司分析团队查看了签署婴儿登记簿的女性的消费记录,找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。
  • 这些相关关系甚至使得零售商能够准确地预测预产期,这样就能够在孕期的每个阶段给客户送相应的优惠券,这才是塔吉特公司的目的。

UPS与汽车修理

  • UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。
  • 以前UPS没两三年就会对车辆的零件进行定时更换。但这种方法不太有效。
  • 通过监测车的各个部位,UPS如今只需要更换要更换的零件,从而节省了好几百万美元。

安大略理工大学的卡罗琳·麦格雷戈博士和一支研究队伍与IBM一起和很多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产儿的病情诊断。系统会监控16个不同地方的数据,在明显感染症状出现的24小时前,系统就能监测到早产儿细微的身体变化发出的感染信号。这个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。这正是这个系统的价值!


“是什么”,而不是“为什么”

幸福的非线性关系

  • 多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的。
  • 但对于收入在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。

  • 相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。
  • 因果关系只是一种特殊的相关关系。
  • 大数据推动了相关关系分析。
  • 相关关系分析通常情况下能取代因果关系其作用,即使不可取代的情况下,它也能指导因果关系其错用。

改变,从操作方式开始

  • 纽约沙井盖爆炸
  • 鲁丁和她的同事必须在工作中使用所有的数据,而不能是样本。
  • 杂乱的数据整理好给机器处理,由此发现了大型沙井盖爆炸的106种预警情况。
    我们需要改变我们的操作方式,使用我们能收集的所有数据,而不仅仅是使用样本。我们不能把精确性当成重心。我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。

大数据,改变人类探索世界的方法

  • “理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念 ,这实在荒谬。
  • 大数据是在理论的基础上形成的。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容