大数据和机器智能都是讲了很久的事了,好像每个人都知道那么一点,但又什么都不知道。只要是上网,大家或多或少都会接触这些热词,但很少人能有对这些概念的清晰定义,因此也不会去想这些新的概念是否仅仅只是概念,它们是生意还是革命。我没有多想过。
吴军老师出新书了,要不要买呢,我犹豫不决。直到我看见书本宣传用的一段话。
在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么加入浪潮,成为前 2% 的人,要么观望徘徊,被淘汰。
机器智能到了吗?
这个问题让我想起了奇葩说第三季的一个辩题,“时保联是暴政吗?”。当时黄执中表达了这么个观点,我们之所以认为时保联是暴政,是因为我们只在当下这个时间点去挑“人与人时刻保持联系”的不便,但却忘了不久之前的固话时代的极大不方便。所以看待一件事需要结合历史的进步。机器智能也是这样的。
除了图灵测试,20 世纪 50 年代的计算机科学家认为,如果计算机能做到以下几件事之一,就认为机器具有图灵所说的智能:
- 语音识别
- 机器翻译
- 文本的自动摘抄或者写作
- 战胜人类的国际象棋冠军
- 自动回答问题
我们现在回头看一下,除了第 3 和第 5 点,其他计算机都能完成得很好了。我们之所以认为机器还不够智能,是因为科技的进步让我们更加挑剔,不断地抬高了智能的门槛。
另一方面的原因是,大部分人依然认为要做出一个智能的机器,需要它的思维方式与人类的大脑相仿。但这其实已经是上世纪科学家的做法,这种做法在长时间没有获得进步。于是,一部分科学家独辟蹊径,尝试用大数据的方式来解决智能问题。
为什么大数据能解决智能问题?
首先需要确定到底什么是智能问题。智能问题的本质在于问题对应着的不确定性。1+2=3 不属于智能问题,因为答案是确定的,唯一的。相比之下,机器翻译是智能问题,因为它的结果不确定,不存在某个答案是翻译的确定文本。所以智能问题是过去需要人类非参与不可,需要思考去减少不确定性才能解决的问题。
那么一个问题,从“不确定”到“确定”之间的转变,到底是因为什么而状态被影响?答案是信息。这个答案的理论基础是香农的信息论,他用熵来描述一个信息系统的不确定性。要消除一个系统的不确定性,就要引入信息。所以要解决带有不确定性的智能问题,就需要从数据中获取信息。
正如所有理论先于工程实现的事情一样,智能问题能在今天慢慢被解决,不是因为以前没有数据,不是因为今天才发明出来机器学习算法(很早就有了),而是以前的数据不够多。从思科给出的手机数据增长图看,进入移动互联网时代后,数据是以指数型增长。其他涉及网络的数据也是一样的,企业数据的增长量更加大。大量的数据可以被获得,数据之间相互关联,交织成网。于是有了大数据的基本特征:
- 数据量极大
- 数据具有多维性
- 数据具有完备性
这里需要多加认识的也许是完备性。所谓完备性,某种意义上可以理解成穷举。在过去,司机是不可能被取代的职业,因为驾驶汽车需要解决很多不确定的问题,但是在今天,无人自动驾驶的趋势已经越来越明显了。以前研制自动驾驶的方法是参照人的思维方式,每到一处都临时识别目标,这样即使计算机再快,也没法进行太深入的计算,容易误判。但今天,Google 用大数据的方法解决了自动驾驶汽车的问题。
Google 不再临时识别道路状况,而是在出发前就熟知所有路况信息,把自动驾驶项目变成街景项目的延伸。周围所有目标的形状大小、道路宽窄、限速等信息早已全部掌握,再利用交通情况、人流密度,把自动驾驶的难度极大降低。
因此,Google 自动驾驶汽车不是“聪明”地临时识别道路信息,而是用最“笨”的方式预先知道所有道路信息,这就是大数据完备性的优势。文本翻译也是类似的。
机械思维到大数据思维的转变
我们已经知道了大数据能够解决智能问题,现在需要了解为了善用大数据,需要怎么样的大数据思维。
在大数据出现之前,虽然我们在科学史上经历了思辨的古希腊、近代科学、现代科学,但思维方式上来看,依然是机械思维。在欧几里得的古希腊时期,在基本公理的基础上,通过逻辑建立了公理化系统;牛顿的近代科学时期,让世人认识了世间万物的运动变化规律,简洁优美,放之四海皆准;爱因斯坦更是把这样的机械思维发挥到极致,在光速恒定这一前提下,仅仅通过逻辑推导,建立了狭义相对论。所以总结下来,机械思维可以概括成以下几点:
- 世界变化的规律是确定的
- 规律用简单的公式或者语言就能描述清楚
- 规律放之四海而皆准
这些科学成就引导了两次工业革命,创造出了极大的生产力,社会方方面面收到了改变。现在,为了引领新的生产力革命,不得不面临世界的不确定性问题:
- 现实世界的变量是极多的,甚至没有准确的理论来预测这些不确定的变化
- 客观世界本身就是不确定的,因为在某种程度上我们的观察,干扰了结果本身
为了用大数据解决不确定问题,我们不得不转换我们的思维方式,从因果关系转变为相关关系:
- 承认世界的不确定性
- 把智能问题转变为不确定问题
- 用大数据消除不确定性问题
书上有这么个大数据侦查大麻种植的例子。美国和加拿大都有利用豪宅种植大麻的案件,因为住宅属于私有财产,没有足够证据的话是没有办法进入核查的。警察也只能通过蛛丝马迹来诊断这种不确定案例。现在有了智能电表,我们可以获取一个住宅的用电量,用电模式。种植大麻的房子用电模式和一般家居是不同的,通过大量数据的比较,就能圈定一些嫌疑人。
在这个案件里,相关性证据取代了因果证据,执法成本也发生了改变。行业的运作模式因为大数据的产生发生了变化。
大数据与机器智能如何改造旧产业
新技术与旧产业的结合创造出新产业,正如过去工业革命中蒸汽机与电的发明一样。过去,机器的升级与运用让成本从人的体力挪到了脑力。思考与判断是人与机器相比,值得自豪的一面。
但大数据与机器智能的诞生,使得人类重复性思考与判断的工作能够被计算机取代了。书中对改造医疗行业的例子让我印象很深。以美国为例,高额的医疗成本来自两方面,一是长周期高成本的制药研发费用,二是长周期人数少的医务人员的培养成本。在美国,培养一个专科医师需要 13 年的时间,从本科算起,到医学院毕业,需要花费 50-70 万美元。
因此,一位放射科医生通过医学影像识别和分析病情,被视为需要很多专业技能才能完成的事。但是在今天,我们已经可以凭借大数据对医学影像进行模式识别与图像理解。一个放射科大夫一辈子阅读的案例很难超过 10 万个,但是对计算机来说,学习百万病例是一件非常轻松的事情。
由此一来,放射科医生的工作效率能大大提高。由于工作门槛的逐步降低,诊断费用必定逐步降低。
智能革命来了,我们何去何从
生产革命长期来看必定是好事,但我们在历史书的学习上往往忘记了,它在短期上给公众带来的负面影响。
第一次工业革命带来了极大的生产力,蒸汽机工厂及相关的制造工厂最先受益,与此同时,大批的工人失业,变得更加贫穷。从 18 世纪末到 19 世纪初,是英国贫富分化最为严重、社会矛盾重重的半个世纪。英国人花了两代人的时间才消化工业革命带来的负面影响。再后来,少数人创造的生产力没法自己消化,于是英国通过资本输出,开拓全球殖民地,推行自由贸易。
每一次生产力革命都揭示了这样的趋势,生产力必定越来越富足,需要进行农业、工业生产的劳动力需求变得越来越少,从事服务业的人员越来越多。并且每一次革命,政府本身没有办法快速消化富余的劳动力,只能靠时间来解决,也许是一代人,也许是两代人。
而这次智能革命的冲击比以前的强度更大、影响面更广、更深刻。因为
- 信息革命本身带来的影响还没有消化完
- 全球化的时代,没有更多的空白市场可以去开拓
- 智能革命取代的是人类最值得自豪的部分——大脑
在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么加入浪潮,成为前 2% 的人,要么观望徘徊,被淘汰。
大数据与机器智能最后会像现在的集成电路一样,作为一种资源被极少数公司所拥有。所幸的是,“成为前 2% 的人”并不是要我们加入到这些公司里去,而是拥抱变化,用大数据思维经验我们的企业,成为新技术来临时,最先受益的那部分人。