浅谈大数据

不知从什么时候开始，“大数据”这个词开始频繁地出现在互联网大佬们的讲话中，在秋招的时候也发现很多互联网公司都有数据分析的岗位，学校某大神老师带领他的学生们在数据挖掘领域拿了一个又一个的专利，发表了一篇又一篇的论文。而我对「大数据」这个词还是仅仅停留在望文生义的理解当中，在这个O2O、B2C、IPO、LOL、AP、ADC(好像有什么乱入了……)各种新鲜名词概念缩写满天飞的互联网时代，要持续保持对新鲜事物的好奇心确实是一件麻烦的事，很容易就会忽略掉某些关键词，导致和别人侃大山时云里雾里，「大数据」就是一直被我忽略的其中一个。直至某个月黑风高的夜晚，经过路边的盗版书摊时瞥到了《大数据时代》这本书，觉得是时候跟上时代的步伐了，于是怒砸十元，将其收入囊中。

这本书在书架上供奉了两周之后终于花了两天将它翻完，书中要讲的内容其实很少，集中在全书的第一部分，后面几乎都是案例的堆积，对第一部分的补充说明，显得有些啰嗦。想要迅速了解大数据可以只看第一部分，喜欢听故事的话后面几部分看看无妨。

先抛出一个自己总结的概念：所谓的大数据技术，就是从很多很多的数据中，挖掘出有效的相关关系，用这些关系对未来进行预测，指导人们做出正确的决策，从而实现价值的转换。

具体是怎样实现的呢？作者在引言部分举了一个栗子：2009年，甲型H1N1流感在美国爆发的前几周，谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。文中解释了谷歌为什么能够预测冬季流感的传播，不仅是全美范围的传播，而且可以具体到特定的地区和州。然而当时的美国疾控中心需要在流感爆发的一两周之后才可以做到。

谷歌通过观察人们在网上的搜索记录来完成这个预测，而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录，而且每天都会收到来自全球超过30亿条的搜索指令，如此庞大的数据资源足以支撑和帮助它完成这项工作。

虽然谷歌公司的员工猜测，特定的检索词条是为了在网络上得到关于流感的信息，如“哪些是治疗咳嗽和发热的药物”，但是找出这些词条并不是重点，他们也不知道哪些词条更重要。更关键的是，他们建立的系统并不依赖这样的语意理解。他们设立的这个系统唯一关注的就是特定词条的使用频率与流感在时间和空间上传播之间的联系。

上面这段话的粗体部分隐约能感受到「大数据」与传统数据分析不同的两个特点：

1. 要全体不要抽样

2. 要相关不要因果

在信息处理能力受限的时代，世界需要数据分析，却缺少用来分析所收集数据的工具，于是人们使用随机采样的方法来减少样本的数量，以最少的数据来得到最多的信息。当我们可以获得海量数据的时候，采样便没什么意义了。随着硬件存储成本的降低和软件算法的改进，使得“样本=总体”变成了可能。

接下来重点关注一下第二个特点：要相关不要因果。

样本的量变产生了质变，使得人们对数据的分析方法也产生了质的变化。追求因果关系是人类认识事物的普遍规律，然而让计算机按人类的逻辑去思考问题是非常难实现的，这一点会在后面讲到。先来看看现在计算机是如何思考的，当事件A和事件B经常一起发生，只要这个“经常”的频率够高，当事件A发生时，计算机便会预测出B也发生了。不需要知道“为什么”，只要知道“是什么”，这就是所谓要相关不要因果。

在谷歌预测流感的例子中，他们所建立的系统不需要理解特定词条的语意，只需要找出特定词条的搜索频率与流感爆发的时间和空间之间存在相关关系，下次再达到该搜索频率时，流感就很可能会再次爆发。

《大数据时代》中还有一个非常有趣的例子。一天，一个男人冲进了一家塔吉特商店，他气愤地说：“我女儿还是高中生，你们却给她邮寄婴儿服和婴儿床的优惠券，你们是在鼓励她怀孕吗？”而当几天后，经理打电话向这个男人致歉时，这个男人的预期变得平和起来。他说：“我跟我的女儿谈过了，她的预产期是8月份，是我完全没有意识到这个事情的发生，应该说抱歉的人是我。”

对于零售商来说，知道顾客是否怀孕是非常重要的。公司通过分析大量数据注意到妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后，她们会买一些营养品，比如镁、钙、锌。公司最终找出了大概20多重关联物，这些关联物可以给顾客进行“怀孕趋势”评分，这些相关关系甚至使得零售商能够比较准确地预测预产期，这样就能够在孕期的每个阶段给客户寄送相应的优惠券。

尽管这些关联物乍看起来与怀孕并无太大的因果关系，但却存在着很强的相关关系，使得事实很有可能便是如此，即便女儿只是个高中生。所以数据往往能弥补我们对直觉的过分自信。

记得在上一次是看到这种类似“相关打败了因果”的观点，是在吴军大神的《数学之美》中，这本书的前几章主要在介绍计算机自然语言处理的。自然语言的机器处理历史可以追述到60多年前，在这个发展过长中，基本可以分成两个阶段。

早期的20多年，全世界的科学家对计算机处理自然语言的认识都被局限在了人类学习语言的方式上，即用电脑模拟人脑，按照一定的语法规则去分析句子。然而这个过程比想象中要困难得多，首先想通过语法规则覆盖哪怕20%的真实语句，语法规则的数量至少是几万条。语言学家几乎已经是来不及写了，而且这些文法规则写到后来甚至会出现矛盾，为了解决这些矛盾，还要说明各个规则的使用环境。基于这些规则所编写的程序相当复杂，处理起来十分缓慢，即使今天，分析二三十个词的句子也需要几分钟的时间。这20多年的研究成果几乎为零。

在20世纪70年代，基于规则的句法分析很快走到了尽头，用统计学来处理自然语言的方法开始展露头角。计算机在判断一个句子是否合法时，只需要通过合理的统计模型处理然后与足够大的语料数据进行对比即可作出判断，而不需要通过语法规则去分析句子。如今广泛应用的语音识别，自动应答机器人都是基于统计的产物，而不是真正像人类一样去思考你给它输入的句子是什么。像微软小冰、小黄鸡这些自动应答机器人，人们与它的每一句对话都会为它们丰富语料库做贡献，而语料库越丰富，会让他们对回答什么的预测越来越准确，看起来也越来越像人类。人工智能的巨大进步归功于统计学，而非仿生学，前者强调相关，后者强调因果。

比起查其因果、探其究竟，利用数据旁敲侧击，挖掘相关关系，建立统计模型，然后通过模型进行结果预测，将会是以后人们作出决策、解决问题的主流方向吧。没有参加过数学建模，隐隐约约觉得这些应该就是数学建模所做的事情？

以上是我对大数据的一些浅显的思考，如有不妥的地方，还请各位指正。

最后编辑于：2017.11.27 00:13:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,468评论 5赞 473
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,620评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,427评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,160评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,197评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,334评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,775评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,444评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,628评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,459评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,508评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,210评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,767评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,850评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,076评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,627评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,196评论 2赞 341

浅谈大数据

推荐阅读更多精彩内容