大数据和机器智能的出现,对我们的技术发展、商业和社会都产生重大的影响。这本书指出,首先,我们过去被认为非常难以解决的问题,会因为大数据和机器智能的使用迎刃而解,比如解决癌症个性化治疗的难题。同时,大数据和机器智能还会彻底改变未来时代的商业模式,很多传统行业都讲采用智能技术实现升级换代,同时改变原有商业模式。大数据和机器智能对于未来社会的影响是全方位的。另一方面,智能化也会对整个社会带来巨大的冲击,尤其是在智能革命的初期。因此,在智能时代开始的时候,我们需要未雨绸缪,尽可能地避免它对社会带来的负面影响。
一、数据—人类建造文明的基石
1、现象、数据、信息和知识。对数据和信息进行处理后,人类就可以获取知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。比如通过测量星球的位置和对应的时间,就得到数据;通过这些数据得到星球运行的轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。人类的进步就是靠使用知识不断改变我们的生活和周围的世界,而数据是知识的基础。
2、数据的作用:文明的基石。人类的文明过程,其实伴随着使用数据的的标准流程:获取数据、分析数据、建立模型、预测未知。
3、相关性:使用数据的钥匙。中国对大庆油田石油设备进行招标,日本人根据王进喜的照片披露的信息,获取了油田的位置、和油田的产出,提供了具有针对性的设备。很多时候,我们无法直接获得信息,但是我们可以将相关性的信息量化,然后通过数学模型,间接地得到所要的信息。而各种数学模型的基础都离不开概率论和统计学。
4、统计学:点石成金的魔棒。在互联网出现之前,获得大量的具有代表性的数据其实并非一件容易事,在误差允许的范围内做一些统计当然没有问题,但是只有在很少的情况下能够单纯依靠数据来解决复杂的问题。
5、数据模型:数据驱动方法的基础。要建立数学模型要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。
小结:数据的范畴远比我们通常想象的要广的多。人类认识自然的过程,科学实践的过程,以及在经济、社会领域的行为,总是伴随着数据的使用。从某种程度上讲,获取和利用数据的水平反映出文明的水平。在电子计算机诞生、人类进入信息时代之后,数据的作用越来越明显,数据驱动方法开始被普遍采用。如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的化话,那么数据将成为下一次技术革命和社会变革的核心动力。
二、大数据和机器智能
1、什么是机器智能。如果能实现下面几件事情中的一件,就是图灵所说的智能:语言识别、机器翻译、文本自动摘要或者写作、战胜人类的国际象棋冠军、自动回到问题。
2、鸟飞派:人工智能1.0。传统的人工智能方法,就是首先了解人类如何产生智能的,然后让计算机按照人的思路去做。
3、另辟蹊径:统计+数据。即数据驱动+超级计算方法,贾里尼克运用数字通信技术来实现语言识别。
4、数据创造奇迹:量变到质变。奥科博士通过大数据处理自然语言,最终取得比赛成功。由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了量变到质变的飞跃。
5、大数据的特征。首先,是体量大。其次,多维度。第三,全面性、完备性、时效性。最后,big data,大数据是一种思维方式的改变。
6、变智能问题为数据问题。计算机下棋和Google回答问题,体现出大数据对机器智能的决定作用。
小结:我们对大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策的支持上,而应看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。在有大数据之前,计算机并不擅长于解决需要人类智能的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新一轮技术革命—智能革命。
三、思维的革命
1、思维方式决定科学成就:从欧几里得、托勒密到牛顿。机械思维的形成很大程度上是依靠从古希腊建立起来的思辨的思想和逻辑推理的能力,依靠它们可以从实践中总结出最基本的公理,然后通过因果逻辑构建起整个科学大厦。欧几里得最大的成就不是发现了那些几何定理,而是在人类所积累起来的几何学和数据知识的基础上,创立了基于公理化体系的几何学。托勒密是一个善于总结方法论的人,通过观察获得数学模型的雏形,然后利用数据来细化模型。牛顿最直接的贡献,在于用简单而优美的数学公式破解了自然之谜。他让人相信世界万物的运动变化规律是可以被认识的,给人类带来了前所未有的自信。机械思维可以概括为三句话:第一,世界变化的规律是确定的;第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语音描述清楚;第三,这些规律应该是放之四海皆准的,可以应用到各种未知领域指导实践。
2、工业革命,机械思维的结果。机械思维直接带来了工业大发明的时代。但到了信息时代,它的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了;另外,人类对世界认识越来越清楚,人们发现世界本身存在着很大的不确定性。
3、世界的不确定性。掷骰子的不确定。世界上很多事情是难以用确定的公式或者规律来表示的。但是,它们并非没有规律可循,通常可以用概率模型来描述。
4、熵—一种新的世界观。香农在信息论中借用了热力学里熵的概念,他用熵来描述一个信息系统的不确定性。信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。
5、大数据的本质。大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。
6、从因果关系到强相关关系。告倒烟草公司,靠的是采用统计上强相关性的证据。从大量的数据中直接找到答案,即使不知道原因。
7、数据公司Google。从根本上讲是一家数据公司。Google公司的成功,不仅仅靠技术,靠数据,更是靠采用了大数据时代的方法论,或者说大数据思维。
小结:很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后。西方在近代走在了世界前列,很大程度上靠的是思维方式全面领先。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
四、大数据与商业
1、从大数据中找规律。警察局根据电表数据,抓获在家里种植大麻的人;商家根据你的购物、浏览记录等,给你推荐相关商品。一些大公司,根据它所收集到的用户数据,可能比我们自己更了解自己的需求。
2、巨大的商业利好:相关性、时效性和个性化的重要性。相关性:根据张三、李四地址,和买的东西,可以推测出他们是夫妻,还有一个孩子,还可以猜出房子的价值,以及收入等。时效性:根据用户的反应,很快调整市场策略。个性化:针对用户的历史数据,提供不同的搜索结果。技术的进步可以改变人的思维方式,从而让产品呈现出新的形态。
3、大数据商业的共同点—尽在数据流中。一、数据收集:无目的的原始数据;二、选择和处理:聚合数据,筛选处理数据;三、机器学习:寻找规律,建立模型,推广应用。
4、把控每一个细节。改造酒吧的酒架,装上可以测量重量的传感器,以及无源的射频识别芯片(RFID)的读写器,然后再往酒瓶上贴一个RFID的芯片。普拉达提供智能试衣间,衣架也加芯片。这样能更好的收集数据,进行分析。
5、重新认识穷举法—完备性带来的结果。谷歌自动驾驶技术,通过“扫过的街”,定位,传感器等,实现驾驶。
6、从历史经验看大数据的作用。新技术+原有产业=新产业。现有产业+蒸汽机=新产业。现有产业+电=新产业。现有产业+大数据=新产业。现有产业+机器智能=新产业。
7、技术改变商业模式。商业模式的变化既有继承性,又有创造性。工业革命导致了产品要靠推销才能卖的出去;第二次工业革命导致了广告业的兴起,业导致了商业链的出现。到了信息时代,商业链得到了发展,这是继承性的一面;而服务业的重要性突破,这是其创新性的一面。在大数据时代,IT软件和服务业依然会是IT领域最好的行业。
8、加(+)大数据缔造新产业。GE将WiFi安装到它的冰箱和其他大型家电上,能更好的与用户交互,提醒用户更换接水器的滤芯。小米以一家互联网公司的方式来经营它的手机业务,从本质上讲手机只是小米获得用户的手段,在获得用户后,它需要通过其他方式挣钱。
小结:在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源,由专门的公司提供给全社会使用。从工业革命开始,几次主要的技术革命都遵循相似的规律。首先,是大部分现有产业加上新技术等于新产业。其次,并非每一家公司都要从事新技术产品本身的制造,更多时候它们是利用新技术改造原有产业。每次技术革命都会诞生新的思维方式和商业模式,企业只有在思维上跟上新的时代,才能在未来的商业中立于不败之地。
五、大数据和智能革命的技术挑战
1、技术的拐点。1965年摩尔博士提出了摩尔定律,同时在工业界大规模集成电路出现,从此开始了持续半个多世纪的信息产业高速发展。在这些拐点上,原有的平衡被迅速打破,人类从此进入一个新的时代。一、数据的产生,来源于电脑本身;传感器;将那些过去已经存在的,以非数字化形式存储的信息数字化。二、信息的存储,半导体的固态存储器(Solid State Drives,SSD)的容量增加成本下降。三、传输的技术,GSD(全球移动通信系统),WiFi传输。四、信息的处理,并行计算工具。
2、数据收集:看似简单的难题。传统的数据方法常常是先有一个目的,然后开始收集。而大数据常常以全集作为样本集。间接收集数据,利用数据的相关性。收集数据时,要在无意间完成。
3、数据存储的压力和数据表示的难题。节约存储设备的技术体现在两方便,第一、存储同样的信息占用的空间小。不单单是数据压缩,而是去除数据的冗余。第二、涉及数据安全,这里所讲得数据安全是指数据不丢失、不损坏,而不是防止数据被盗。大数据的应用方法和场景与过去使用数据完全不同,因此需要标准化格式,以便共享。
4、并行计算和实时处理:并非增加机器那么简单。需要从根本上改变系统设计和算法。
5、数据挖掘:机器智能的关键。处理数据,然后通过数据得到知识,通过知识使得计算机变得更智能。
6、数据安全的技术。在文件系统和操作系统设计上加以改进。利用大数据的本身的特点,来保护数据的信息安全。分析正常的业务操作流程,找出异常情况。操作习惯、坐姿等。
7、保护隐私:靠大数据长期挣钱的必要条件。由于大数据具有多维度和全面的特点,它可以从很多看似支离破碎的信息中完全复原一个人或者一个组织的全貌,并且了解到这个人生活的细节或者组织内部的各种信息。这就会引发大家对隐私权的担忧。一类保护隐私的技术是从收集信息的一开始就对数据进行一些预处理,预处理后的数据保留了原来的特性,使得数据科学家和数据工程师能够处理数据,却“读不懂”数据的内容。另一类保护隐私的技术是所谓的双向监视。
小结:大数据的数据量大、维度多、数据完备等特点,使得它从收集开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。因此,使用好大数据也需要在技术和工程上采用与过去不同的方法,尤其是要改变我们过去的很多思维定式。大数据和机器智能的发展和应用过程,还会带来很多新的技术挑战,需要解决很多技术上的难题,比如对数据安全的考虑,对隐私保护的考虑等。
六、未来智能化产业
1、未来的农业。作为严重缺水的国度,以色列人发明了滴水灌溉技术—装有滴头的管线直接将水和肥料送达植物的根系,大大节约了水和肥料。所有的灌溉方式都采用计算机进行自动化控制,灌溉系统中有传感器,能通过检测植物茎果的直径变化和地下湿度,来决定对植物的灌溉量,这样可以节省人力和水资源。
2、未来的体育。勇士队利用数据制定战略,最有效的进攻是眼观缭乱传球和准确的投篮,而不是彰显个人能力的突破和扣篮。还用实时数据及时调整比赛中的战术。大数据对体育训练的帮助还在于分析和总结优秀选手的动作姿势,纠正其他运动员的动作。
3、未来的制造业。富士康一直在研制取代生产线工人的工业机器人,预计未来将装备上百万台机器人,逐渐取代装配工人。这使得工人们不再需要从事繁重而重复性的工作,但由于工厂所需要的工人数量大幅度减少,很多低技能的工人将失去工作。特斯拉很少雇佣原来汽车行业的人员,除了降低陈本外,还有一个更深层次的原因—它一直把自己定位成一个IT公司,而不是汽车公司。汽车其实就是承载着特斯拉IT技术的平台,特斯拉内部将汽车看成一个巨大的智能终端。
4、未来的医疗。从三个方面来看看大数据和机器智能将如何改变医疗保健以及制药行业的现状。一、降低医疗成本。具有了智能的计算机不仅能帮助诊断,承担放射科医生的工作,还可以进行手术。二、解决医疗资源短缺问题。自然语言处理专家和医生们让计算机理解人的语言,然后让它能够根据化验结果和病人的描述来诊断简单的疾病。三、制药业的革命。利用大数据技术,在不超过几千万种组合中找打各种真正导致癌变的组合,并且对这样每一种组合都找到相应的药物,那么对于所有人可能的病变都能够治疗。针对每一个患者设计个性化特效药。四、人类是否可以长生不老,如果我们能够发现那些致病的基因,并且使用基因编辑技术修复基因,那么人类的寿命将大大延长。
5、未来的律师业。今天,一些公司利用自然语言处理和信息检索技术,发明了让计算机阅读和分析法律文献的软件,可以取代很多人工。
6、未来的记者和编辑。计算机是从大量文本语料中学习,如写财经评论其实是根据以前很多报纸上多年积累的财经中读出的信息,合成一篇文章。还要用一种被称为语言模型的概率模型,将文字构造成优美的句子,再用另一个语言模型将句子组合成段落。
小结:现有产业+机器智能=新产业,未来的农业、制造业、体育、医疗、律师,甚至编辑记者行业都将迎来崭新形态,新产业将取代旧产业满足人类的个性化需求,大数据将导致我们整个社会的升级和变迁。不过,如果对比每一次产业革命前后产业的变化,你就会发现人类很多需求并没有变,只是采用了新技术后,新产业会取代旧产业满足人类的需求。在技术革命时,固守旧产业是没有出路的。
七、智能革命和未来社会
1、智能化社会。大数据和机器智能将把我们社会的管理水平提升到一个前所未有的高度,使我们的环境更加安全。根据人流分布,可以预警。利用大数据管理交通可以根据实时流量和对未来流量的预测,调整交通信号灯的时间。
2、精细化社会。通过区块链,在未来如何跟踪每一件商品从制造出来直到被消费的完整行踪。一、追踪每一次交易。一区块链为基础的比特币交易,每一个比特币被挖矿者挖出时,就产生一个区块(表格)记录各种信息,每一次交易(链接)的情况就被记录在区块中。二、从标准化到个性化的服务。由于每一个都积累了非常完整的与自己健康状况的有关数据,医院、医生甚至本人对自己的了解都会比较清晰。又由于有了比较完备医疗从业者的数据,智能的就诊指导系统会根据患者的情况和医生的情况帮助他们选择合适的医生。
3、无隐私的社会。我们或许生活在一个没有隐私的环境里,或许会被一个超级权力在无形中控制,甚至很多人因为没有掌握未来生存的技能而找不到工作,财富可能会更加集中在少数人手里。
4、机器抢掉的饭碗。每次的技术革命都对当时的社会产生了巨大的冲击,都需要经过大约半个世纪甚至更长的时间才能消化掉。一、从工业革命到黄金时代。又分为三个阶段,第一个阶段只有发明家和工厂主受益,普通英国民众没有受益;第二个阶段是全体英国民众普遍受益,但是在世界范围内大家未必受益;第三个阶段才是整个世界受益。二、从第二次工业革命到镀金时代。它给人类带来的福祉也是先从少数精英开始,经过半个世纪的时间,才开始造福技术革命的中心地区,二战后才影响世界大部。三、依然没有消化完的信息革命。旧的经济结构已经落伍,甚至被摧毁,而在新的经济结构中,他们虽然能够享受到信息革命的产品,却没有享受到信息革命带来的经济增长。四、解决问题只有靠时间。对那些曾经为人类的文明做出过贡献,但已经被技术革命所淘汰的员工,唯一的希望就是他们后代能够进入一个新的行业。五、智能革命的冲击。智能革命对社会的冲击可以用强度更大、影响面更广、更深刻来概括。
5、争当2%的人。在每一个重大的技术革命开始的时候,真正勇敢地投身到技术革命大潮中的毕竟是少数,受益者更少,大部分人则会犹豫观望。在智能革命来临之际,每一个人也有两个选择,要么加入到这一次浪潮中,要么观望徘徊,最后被淘汰。当然,大多数人的观望、犹豫和徘徊,给了2%的人以机会,使得愿意吃螃蟹的人在奋斗的道路少了很多竞争对手。
小结:在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么加入浪潮,成为前2%的人,要么观望徘徊,被淘汰。我们还没有经历过机器在智能上全面超越人类的时代,我们要在这样的环境里学会生存。这将是一个让我们振奋的时代,也是一个给我们带来空前挑战的时代。