最近教小孩一些简单的编程。有一次主题是:均值/方差/标准差,想先引入一下,就出了一道题:四个小朋友考试,分别得20分,60分,80分,100分,问平均多少分。她是这么算的:
(((20+60)/2+80)/2+100)/2=80
谁都知道这不对。我觉得这是个权重的问题,但是怎么对这个只会整数加减乘除的脑子讲清楚权重呢?于是画了下面三个图,问她怎么算是对的?她觉得都是对的,但是计算结果不一样。
后来,是这么解释的:计算只能发生在同类的东西之间,比如右上图是均值和均值算,右下是分数和分数算,左边的图到第三层的时候,均值和分数算,不是一种东西就没法放一起算了。就好比,你和一个同学比,比的是你们俩谁更好;你的分和你们班平均分比,比的是你在班里的水平;班和班的平均分比,比的是老师的水平;你的分和旁边那班的平均分比,比出来是什么呀?
有时候大人思维也这样,拿个体和另外一个群体的均值比,比出来也不是群体差异,也不是个体差异。手机里这种奇怪的文章满天飞,乍看跟真的似的。
再反过来看她写的那个算式,也有道理。当要统计的东西很多,一次算不清楚的时候,一般都拆成几个小块分别算;而计算时,后算的往往权重更大。可能是看问题的角度不一样。作为心理评价,这可能是对的,但作为均值计算它是错的。
还有一些类似的认知误区:比如放大差异;分不清同时发生的是伴随关系还是因果关系;只考虑特例,不考虑概率……于是常常在哈哈镜里看世界,还感觉有鼻子有眼的。
继续说均值,均值为什么重要呢?它影响对问题的预测(成功的机率是多少),选择合理的目标(坚持还是放弃),以及最终的行为。有人考第二不满足,想考第一;有人考倒数第二,也不着急,心想还有不如我的呢。为什么会这样?这是两种均值共同作用的结果,一个是整体的均值(和他人比),一个是个体自身的均值(和自己比)。就像上面那个数学题。或者我们不叫它均值,叫它基线。
每个评价体系都不一样,困难的大家分都低,简单的大家分都高。个体也没有太多可比性,但又必须做出选择。所以只能通过比较判断相对的价值。说远一点,自我价值,自尊,自信都源于此,有时候自我价值感出问题了,除了考虑客观现实,也要检查一下内部算法和基线选择。
比如基线是在多大范围内确定的(我们院儿还是全中国),取的是均值(所有加一起除以个数),中值(50为0-100的中值),期望值(所有区域得分乘以概率之和),某个固定值(比如60分及格),边缘值(划分好坏之间的那条线),还是极限值(雷锋一样的标杆)。数据的发散程度,是否有汇聚点,有几个汇聚点,概率密度,数据分布具体规律,是不是应该把划分成某几类,再求基线?这是处理数据的方式,也是思维的方式。