这几年在互联网界,一直有两个词非常的火:
①互联网+
就是「互联网+传统行业」,这个很好理解,传统行业和互联网结合嘛,现在很多传统公司都在做互联网的转型。
②大数据
大数据这个词相信大家也不陌生,然而很多人会认为,大数据是高科技,所以跟我们普通人的生活没啥联系……
是这样的吗?
真相却是,你的周围早已有许多应用大数据的事件,只是你并没有察觉到而已。
就比如说前段时间王宝强跟马蓉搞离婚,这事儿在网上闹得沸沸扬扬,火到什么程度呢?
根据百度指数的官方统计:
王宝强的热度竟然比10个里约奥运会的热度加起来还要高!
短短3天,王宝强的微博一下子涨了900万的粉丝,离婚声明那一条微博甚至有300多万条评论。在评论区,网友们纷纷表示同情,无非是什么“马蓉太坏了,宝宝不哭,我们一直在你身边”啊等等。
但是大数据的统计结果却表明:
网友们的真实情绪竟然是快乐的!
这就好比,有要的人嘴上说着不要,身体却很老实;网友们嘴上说着同情,心里却开心得要命……
大数据是怎么得出这个结论的?
原来是有的科技公司,从社交网络上收集了大量人们表达情绪的信息,比如表情符号和标点符号(如感叹号、问号、省略号),还有代表了情绪的关键词。
把这些东西汇总起来,用特定算法分析出人们对王宝强离婚的情绪。
你心里的真实情绪是快乐,这一点天不知地不知,大数据却知道。
事实上,如今大数据的应用范围之广,可能远超出你的想象。
前段时间我读了一本书——《智能时代》,这本书实在太迷人了,我一字不落得给认真看完,作者吴军的文字实在是有趣又有料,强烈推荐!
今天的这篇文章就是我对《智能时代》这本书的思考总结,给你科普大数据的知识,一定可以拓宽你对这个世界的认知。
下面就来看看,大数据在哪些你根本意想不到的领域里大展身手?
1、什么是大数据?
什么是大数据?很多人觉得自己懂这个词的意思。事实却是,他们非但不懂,而且对大数据还有很多的误解。
首先,你知道什么是数据吗?
一个最常见的误解就是认为数据就是数字,这实在大大低估了数据的范畴。实际上,数字只是数据范畴里很小很小的一部分。互联网上的任何内容都是数据:
音频、文字、视频,你访问某网页的次数,甚至你再此网页停留的时间等等等等,都可以被记录下来,成为数据。
建筑师的设计图纸、国家机密档案也是数据,甚至我们的活动本身:一天的出行轨迹、购物、玩游戏的行为也会成为数据。
过去也有数据,但是那时候数据很难收集,而且量很小,导致无法从有限的数据里分析出什么规律,不过幸运的是:
互联网时代来了
随着个人电脑和手机移动端的普及,数据的收集变得越来越容易,收集到的数据越来越「大」,也就是所谓的大数据(big data)。
注意,有不少人认为「大」这个字指的是大量的意思,这也是一个普遍的误区,真相是:
大数据≠大量数据
作者吴军告诉我们,「大」的含义至少有三个层面:
①体量大:
量大当然是必要条件,但并不充分。
说白了,大数据一定是大量的数据,但大量的数据不一定是大数据。
比如说,你记录下全世界70亿人的出生日期,这是一个庞大的数据量了,但是除了能分析出全世界人口的年龄分布,其实没有什么别的意义。
②多维度:
百度曾用大数据做出来一份报告——《中国十大吃货省市排行榜》,有个关于「xx能吃吗」的问题,网友们的回答很有意思:
宁夏网友最关心的竟然是「螃蟹能吃吗?」,内蒙古、新疆、西藏网友最关心的是「蘑菇能吃吗?」,广东、福建、浙江等地的网友最关心的是「XX虫能吃吗?」
螃蟹都不敢吃的宁夏网友看到这份报告可能会吓一跳:世上居然还有人吃虫子!
得出这份报告,百度甚至没有做任何的问卷调查,或是地区饮食文化的研究。
它只做了一件事:
收集「百度知道」里7700万条跟吃有关的问题。
从食物的做法、吃法、营养价值、价格,到提问者所在的地域、时间,甚至连提问者使用的是手机还是电脑这样的行为,都会被记录下来成为数据。
可以看到,百度收集到的数据有非常多的维度,这里体现的就是大数据多维度的特征。
而下一步工作就是把多个维度的数据联系起来,通过计算机算法得到有统计意义的规律。
最终成果便是《中国十大吃货省市排行榜》。
③全面性:
注意,全面性和体量大这两个特征很容易混淆。前者指数据的覆盖范围广,而后者单单指数据的体量很大。
比如说,在大学里做一个「学生对食堂饭菜好感度」的调查,如果你只调查了女生而不调查男生,这就叫不全面。
来看下面这个例子:
2012年,一个叫内德·斯维尔的小伙子,竟然成功预测了美国50+1个州的选举结果!
在过去统计学家看来,这根本是不可能办到的事情,而他之所以预测如此精准,是因为:
他收集了几乎所有,人们发表在社交网站、新闻媒体上的跟2012年大选有关的数据。
斯维尔收集的数据非常全面,几乎覆盖了每一个投票人的想法。
如今的美国大选,特朗普和希拉里正打得火热,多家媒体纷纷放出问卷调查,来看看民众更偏向选哪个候选人。多数问卷结果显示:希拉里会获胜。
然而根据Twitter对50多万用户的统计结果,却显示55%的人认为特朗普会获胜!在选举领域里,媒体问卷和大数据的这个比例差距还是很大的。
事实上,传统的问卷调查有很多天生的缺陷,比如说无法做到体量大、全面性等等。
还有些情况下,出于面子和道德压力,传统问卷并不能获得人们的真实想法。
试想,如果百度的吃货调查以问卷形式来做,估计很多人就不会在问卷上表明有「爱吃虫子」的癖好,以免显得自己非常怪异。
但是人们在百度知道上的提问和回答,则没有任何压力,没必要撒谎,所以反映的基本是真实想法。
这也是大数据调查之于问卷调查的一大优势。
2、大数据有什么用?
看到这儿,你可不要觉得大数据仅仅是用来做各种调查啊。
事实上,受益于大数据,很多行业正进行着飞速的产业升级:
制造业、农业、医疗……甚至体育行业!
最后一条你可能不大相信,大数据跟体育又有什么关系呢?
#例一:
在NBA的2014~2015赛季,金州勇士队夺得总冠军,但是在2009年,勇士队居然还是NBA最烂的球队之一,排名倒数老二。
勇士队是如何在短短6年里,从烂队走向冠军奖杯的呢?
有人说,勇士肯定是重金请了大牌教练和大牌明星,才有了今天的成就。
事实却是,勇士当初并没有什么大牌教练和球星,6年前新换的老板,反倒是把队伍里仅有的明星球员给卖掉了……这就奇了怪了,一穷二白的勇士是如何迅速成长并拿到总冠军的?
你可能很难想象,勇士队成功的原因在于,它处在一个很特别的地区:硅谷
硅谷的大数据工程师,竟然是勇士队的秘密武器!
通过对NBA无数场球赛的大数据分析,他们发现:
过往几十年NBA各球队的打法,喜欢追求制空权,所以那些大个子球星往往很受欢迎,因为他们可以很轻松地把球装进篮筐,或者直接扣篮。
这些动作看起来华丽,但大数据却发现,它们的得分效率并不高,全队消耗很多体能把球传给大个子前锋,还是在没有失误的情况下,也只能得2分。
于是勇士队的管理层设计了新的战术:
尽量在3分线外投篮,而不是突破到篮下再投。
稍微关注NBA的同学都知道这是谁吧,勇士队的三分球神投手——斯蒂芬·库里(Stephen Curry),他的三分球命中率简直是个神话!
别看库里现在功成名就,6年前身高只有1.91米的库里根本是个没人要的球员……
幸运的是,库里在球队以投篮为核心的思想指导下,成长飞速。不仅帮助勇士夺得了40多年来的第一个总冠军,他在2015~2016赛季投进的403个三分球,也创下NBA史上的新记录。
全队在这个思想的指导下,一个赛季居然投进了1000+个三分球!
训练时,大数据帮助球员纠正姿势;比赛时,大数据还能指导球队随时调整战术。
勇士队的功与名,真的要感谢大数据。
#例二:
网易云音乐有一个每日歌曲推荐的功能非常受欢迎,推荐的歌大都不赖,常常是你喜欢的口味。其背后的原理也是基于大数据。
你听一首歌的类别、时长,还有收藏与否、下载与否、评论与否、点赞与否,这些东西都会成为数据,网易云音乐拿这些数据去分析你的喜好。
听的歌越多,收集到的数据也就越多,越能够预测出你的喜好,从而推荐给你喜欢听的歌。
实际上,各大购物网站也在做同样的事,你在淘宝、京东、亚马逊、当当等等网站留下的任何轨迹都会被记录下来,成为大数据分析的对象。
我想你早就发现,每个人的淘宝界面都不一样了吧?
这就是因为购物网站根据大数据,分析出了你个人的喜好,猜到你想要什么商品,最后在广告界面个性化地推荐给你。
3、大数据的“坏”
不仅是购物网站,几乎所有网站都可以获得你的上网轨迹:
你在某个页面停留的时间、点击了哪个超链接,甚至能知道你在离开网站以后又去逛了哪些网站。
就好像在你身上安了一个追踪器。
同样的,我们在百度搜索的每个关键词,在微博、微信、知乎、简书发表的每一句话、每个表情,也会为大数据所用……
现在貌似还没什么问题,但未来,如果到了「万物联网」时代,连钥匙扣、茶杯这样的东西都连上了互联网……
这可能就意味着:
我们的一切行为都可以被数据工程师记录,个人将毫无隐私可言。
事实上,已经有商家在利用这点损害我们的利益。
在某宝,有些人经常买到假货,有些人却以同样的价格买到正品。这很可能不是运气问题,而是因为商家掌握了个人的太多数据:
商家知道你是个买到假货也不吭声的软柿子,还是个锱铢必报的人。
我们可以说这种行为很「脏」,没有职业道德,但又不能说他违法,因为并没有相关的法律条文规范这种行为。
而事实上,在未来智能化社会,单单靠法律是很难根治隐私保护问题的的,有两点原因:
1、查证起来十分困难。
2、法律条文的制定有很高的滞后性,往往上一个案件的法律还没制定出来,新的问题又出现了。
所以说,我们还必须有相应的技术手段保护个人隐私。
已有的隐私保护手段有这2类:
①预处理
从收集信息的一开始,就对事关隐私的数据进行加密处理,使得数据工程师分析不出数据的真正含义。这个方法能防止个人窃取数据以谋取利益,可对那些大型的大数据公司基本没效。
②双向监视
简单来说,双向监视是指:
如果一个人偷窥别人隐私时,自己的偷窥行为本身暴露了,那么他多少会约束自己的行为。
这就好比,王二正在色眯眯地通过门缝偷窥女孩洗澡,但是他突然发现张三看到他在偷窥,偷窥行为暴露了。
那么王二的反应,肯定是立刻捂头盖脸地跑掉。
凯文·凯利(Kevin Kelly)和同事们通过实验发现:
如果要人输入自己的隐私才能够偷窥到别人的隐私,多数人会选择放弃偷窥。
想要侵犯别人的隐私,必须以自己的隐私来作为代价,这就叫双向监视,是可以在技术手段上实现的。
事实上,作者吴军和凯文·凯利曾一起做过调查,发现现在许多人只是把个人隐私挂在嘴边,实则对隐私保护普遍不够重视。而在未来,随着大数据技术的普及,隐私问题会越来越突出而敏感。
然而,当技术与个人隐私产生矛盾,技术是绝不会停止发展的,所以我们只能用技术解决技术问题。
未来如何,我们拭目以待?
➤小凡荐书