骗人的数据
前段时间,做了一个工厂的产能分析预测,利用的算法极其精妙,将2007~2017年的数据作为训练数据,将2017~2019的数据作为预测数据,进行验证,误差在可以接受的范围之内。而我在写分析报告的时候,却很犹豫。我不知道自己的模型和算法是否真正有用,因为自始至终,我都并没有对未来进行预测。而2007~2017年这十年间,工厂的产品发生了很大的更替,市场份额也在不断的变化,而且整个国家乃至世界的经济形势都发生了变化。我单单从数据的角度出发,却忽视了其中诸多关键因素的影响。这些关键的因素实际上是随着时间不断变化的。忽视这些因素,得出的模型,可能会出现“全美国的人都为IBM工作”的闹剧。这也许是目前数据科学领域面临的主要问题,单从数据的角度进行预测或分析,可能并没有什么实际意义。最近读了Gray Smith 的《StandardDeviations》,Gray教我们如何识破一本正经的胡说八道。
其实,在我们日常生活中,我们总是在总结或反思自己人生经验中的模式。例如,“否极泰来”,“乐极生悲”,“星座五行”。我们习惯于创造模式,创造正确。
巧合的人物和日期只能证明我们花了很多时间寻找巧合,无法证明其他任何事情。为了相信某些数据(信念)是正确的,他们丢弃了与这种信念相冲突的数据。想想自己在从事科研活动中,也是会摒弃一些不好的数据,来迎合我们论文中正确的理论。所以也有人说“论文中的科研多是假的”,为了发表美丽的文章,不少科研人员创造或选择了美丽的数据。
此外,数据本身因为不同的表现形式(可视化),也具备很大的欺骗性。如下图1,图2,是相同的两组数据展示出来的图形,但单从图形的角度来看,图1展现并没有什么变化,但是图2展现出来的确实变化很大,但是二者仅仅的区别却是纵轴区间的变化。
我们不得不承认我们总是在犯一些错误的思维逻辑。这也许来自我们与生俱来的,对于未来世界的恐惧。我们希望得到一个模式来遵循。这其实是一个错误的思路,我们总是习惯报道一些成功的范例,从成功的范例中总结出一些“优秀”的品质(特征值),形成一个模式,然后推广这种模式,认为具备这些的“优秀品质”,便能成功。但实际上这样完全是因果颠倒的。
但从数据的角度来看分析或预测,本身将进入一个费曼陷阱。就像我做的产能分析的预测模型,我不可能因为它预测准确了2020年的产能,而志得意满,我甚至觉得它毫无价值。在大数据时代,真正有价值的是数据,没有价值的也是数据。我个人觉得单纯从数据出发,采用精巧的算法的黑盒模型是没有意义的,有意义的是数据配合相关物理模型的灰色模型。