从很小的时候起,我就一直对人工智能充满好奇,后来还曾经买过各种关于人工智能的书籍,妄图了解与进入这个神秘的行业。然而现实总是无情的打击我:原来人类真的可以把书写的那么枯涩与难懂。
如果你对这个领域感兴趣,我个人建议先看看《游戏开发中的人工智能》这本书,里面关于人工神经网络和遗传算法的章节,我认为是最好的科普
后来开始世界上有了MOOC,我在Coursera上了无数人推荐与入门的那节Andrew Ng的《Machine Learning》,从完全不会matlab到两个星期用octave刷完所有作业。
然而,依然没有什么用。我觉得我学完这门课到我开始了解与实践机器学习用了3年,到我开始认识与正视人工智能,用了5年。
回到主题
现在的新闻总是把人工智能描述为解决一切行业问题的灵丹妙药,我一直认为这是不妥的。人工智能,包括现在如日中天的连接主义学派也好,还是传统的逻辑主义(符号)、控制论,现在都无法根本上解决企业的问题。
所谓连接主义,就是现在如日中天的深度学习一派,本派武功需要大量数据,内功不要求太高,但是内功高低往往决定一个人的根本水平。
人工智能无法单独作为产品。无论是IBM的waston还是Google的Deepmind,你经常会看到各种新闻提到他们“挑战医疗领域”,“进入XX领域”,“XX年内解决YY问题”。然而你在XX年之后,发现他们又是什么都没做到的样子?
首先一个问题是,为什么他们必须要进入XX领域呢?因为人工智能无法单独作为产品,它只是一种工具。就好像,自动驾驶,首先要有汽车与汽车驾驶,才会有自动驾驶。医疗、军事、金融,等等是人工智能的主战场,为什么?就是因为我们首先要有一个行业,然后要在行业内有大量的行业数据(金矿),然后人工智能才能在贴近行业的地方发挥一点点作用。
这让我想起我母亲的工作,我父母都是石油工人,母亲所研究的领域一直是“三次采油”,所谓三次采油在我的理解是:首先我们采油,这是第一次;油冒出的不多了,我们注水,这是第二次;注水的效果也慢慢小了,那我们尝试往里面注二氧化碳、微生物、乱七八糟的各种东西——这是三次采油
一般的数据分析是在做“二次挖掘”,人工智能希望做“三次挖掘”
传统数据其实已经很有效了,就好像网络黑市会有人兜售身份证信息、学籍信息一样,这种“一次数据”在很多时候已经可以满足一定的需要,产生价值。然而当它的价值越来越小的时候,或者挖掘它价值的成本越来越高的时候(通过人力如何肉眼看过100,000条信息?),才需要人工智能来进行辅助。
人工智能并不会让数据变多,甚至它的作用只是让数据“变少”,或者说让数据变为我们所需要的样子(降维、结构化、分类、聚类、可视化)。
单单从统计学习出发吧(近连接主义),人工智能就是把数据切片、揉搓、剪切,用人更好理解的方式呈现、展示、处理。没有它我们也可以做事,有了它也不能说我们就一定可以提高收益、降低成本,只是在一个特定领域内,在我们定义好的场景里,它可以以不高的成本,帮助我们完成某件事儿。
连接主义的方法我认为在很多需要大量数据处理的时候,都可以极大的节省人力资源,缺点是“会武功的人很多,招式连贯的人很少”。
其实我个人觉得连接主义、统计学习的各种方法,还是在解决问题的“术”,符号主义的做法可能更能让大力丸进化到“法”和“道”的层次。
假设一个公司的数据,从一端(来源、收集)到另一端(销售、实践、应用)需要很多流程,尤其是需要很多人工流程。那么深度学习,也许可以代替其中某个流程,单单在这个流程下,提高效益,降低人力成本。
不过机器能不能完全代替整个流程?也就是把数据的清理、筛选、应用,打造成一个完整的闭环?至少深度学习不行,但是也许符号主义可以。铁打的营盘流水的兵,符号主义的理想就是打造这样一个营盘。