机器学习,各种预测都是最优化问题。其做法是只要给出一个收益函数,在每一时刻算出能够最大化收益的方向,沿着这个方向走一小步,然后再从新的起点重复这个过程,那么不论从什么地方开始,最后一定能够达到收益最大的那个终点。这里提到的收益函数也可以被称为利润函数,就是期望值最大化。
简单的说,这就是一个迭代的过程,一步比一步优化。在机器学习中,这个过程是由计算机自动完成的,这也是为什么AlphaGo最终能够找到一部棋最佳走法的原因。
上面那个描述或许还有一点儿抽象,举个现实生活中的例子。比如说,俄罗斯世界杯预选赛中国足球队在主场输给小组最弱的对手叙利亚之后,又客场输给了乌兹别克斯坦队提前出局。经过近40年快两代人的努力,中国足球队终于从亚洲强队变成了亚洲的软柿子,虽然各级领导都着急,但无论是砸钱还是换帅都没用,其实有一个很简单的方法,不仅让中国足球能够冲出亚洲,而且还有望夺得世界冠军,怎么办呢?只要教育部宣布从今往后高考成绩,一半看文化课的分数,另一半看足球成绩,马上所有的广场都会被踢球的孩子所占领,那些大妈、奶奶们为了儿子、孙子也不跳广场舞了,家长给孩子安排的课外活动都会是足球,各省市也都会被足球砸钱。类似,如果宣布百米跑成绩占高考的一半,那满大街就都会是冲刺的,中国不知道能出多少个奥运冠军。
回到刚才的理论,高考中足球或者是百米的成绩,就是前面所说的收益函数,只要这个函数一确定,整个社会就变成了一个机器学习的系统,期望值最大化方法,会自动优化全社会,让足球成绩达到最大值。
期望值最大化方法也被看成是宇宙演变和物种进化背后的动力。在宇宙的进化中,也遵守物理学的基本原理。各种物质之间的四种基本作用力,其实就是收益函数。质子和中子通过强核力形成原子核;弱核力保证原子核不要太大;电磁力保证原子核和电子能够形成原子,以至原子可以结合形成各种分子甚至万物;万有引力保证物质能够形成星球等等。宇宙的演变,其实就是在这很少的几条规则限制之下,不断优化的过程,最后孕育出生命。而物种的进化也是如此,其实我们的DNA也是处于一个不断优化适应环境的过程中。
在人和人的关系上,在一个组织内部,也是不自觉的按照期望值最大化方法在不断的完善。一个人交朋友,开始可能有比较大的随意性,但是在他的内心其实是有一个衡量标准,也就是收益函数,也就是要最大化自己的收益。久而久之,对他好的人,彼此能够产生所谓的化学反应的人,以及距离比较近的人就成了他的朋友,其他人就渐渐的淡出了他的生活圈。当然,每个人内心的收益函数是不同。
在一个组织里,尤其是一个公司里更是如此,创始人定下一个什么样的价值观,也就是收益函数,员工就会不自觉的会去朝着收益最大化的方向去努力。
有一家大公司在制定年终奖时,标准是把每个员工的一半奖金和他对公司价值观的认可挂钩,久而久之就会发现他们的员工出去说话都是怪怪的,有意无意的在宣传他们的价值观。外人相不相信不知道,但是天天说至少把自己都能说的相信了。
在美国IBM公司申请专利和员工绩效挂钩,于是它就成为了历年来获得美国专利的绝对冠军。谷歌对员工发专利,最初有不错的激励机制,也就是收益函数,但是一度因为为了省那点小钱,大幅降低了对员工申请专利的奖励,结果却是谷歌人均申请专利数锐减,以至于后来在和微软苹果的专利之争上非常被动。于是谷歌又把专利改了,申请一个专利可以获得一万美元的奖金,很快,在专利榜上默默无闻的谷歌,一下子挤进了前十名。
从这些例子可以看出,公司设置什么样的收益函数,员工就会最大化它,这也是为什么说创始人的基因会决定公司的基因,以及创始人一开始最重要的事情就是定规矩。谷歌从小公司开始给单元测试写得好的员工发奖金,给代码经常出错的员工小小的惩戒,于是它自然而然地就发展成了一个重视工程质量的公司。Facebook从一开始就强调产品的迭代速度,因此它就成为了一个以产品驱动的公司。有的公司一开始就给部门定销售指标,那些公司就成为了只盯着下个季度ppi的短视的公司。
在一个现代组织中,但凡有点独立思考能力的人,都会发现那些领导有意无意设定的收益函数,然后不自觉的调整自己的行为,去最大化自己的利益。与其教育员工,不如设置一个好的收益函数,既然宇宙的演变都遵循这样的规律,又怎么可能要求员工降低自己的期望值,同时又保证公司的收益呢?
如果你是老板,不妨给大家设置一个好的收益函数,如果你是员工,按照公司的章程,最大化自己的收益,是合情合理的事情。
科学原理不仅适用于科学本身,也适用于生活。