Variance估计的难处
再次回顾一下Bengio 对当代DNN的理解:
Machine learning is essentially a form of applied statistics with increased emphasis on the use of computers to statistically estimate complicated functions and a decreased emphasis on proving confidence intervals around these functions.
当今工业界更注重模型对大规模数据,复杂函数的拟合能力,而(不得不)忽视其估计的区间。
其实传统的统计模型,对区间的估计一直是非常重视的,但是由于通常在工业界,数据量非常巨大,参数维度也很高,因此直接计算估计参数的Variance很困难,而且由于DNN模型收敛性的理论并不是很健壮(也没有解析解),所以这些在传统统计模型得到的bound并不一定能在工业界模型有那么优秀的表现。
下位替代
综上,所以我们在这里使用近似的方法来获得variance大小一些定性的分析。
以下分析参考了OLS的variance lower bound:(注意其理论lower bound其实有较多正态性假设,所以对特定场景需要谨慎细致地进行判断)
0、 我们LR中模型参数的协方差矩阵为(注意数据集要先处理成zero mean)
1、参数Variance的分子为样本的残余Variance。表明variance与其预估结果残余的方差成正比(不确定性),由于误差,而无偏估计量,相当于在当前模型下,误差都来自于,所以对于无偏估计,我们通常可以直接用测试样本上残余的error(RSS)来当作总体variance的近似估计。
PS:这里直觉上其实也可以得到一个推论:模型继承了数据集残余的不确定性(数值上为RSS),起码模型的不确定性跟这个“残差“是正比的。residual越大(RSS),模型本身的variance也越大。因此我们可以得到如下结论:-
推论1:最终样本上的residual越大,模型整体参数的variance越大。模型继承了数据集残余的不确定性,在概率模型中表现在logloss大小上。(PS:注意logloss本身是数值敏感的,需谨慎横向对比,同理类比概率和上相同的数值作为区间带来的影响也是不同的。)
2、参数Variance的分母为dataset的covariance matrix(取逆可理解为分母),表明其跟每个特征对应的方差(协方差)成反比。即出现的特征确定性越高,集中,区间小(方差小),则对应参数的variance越大。比如对于0/1二值的特征,其取值越极端,比如99%都是1,那么其variance越小,取了倒数反而其对应的参数的variance越大。换句话说,我们希望其特征的数值分布越宽泛,越“均匀”越好,才能降低预估参数的variance。数值特征即是其数值本身variance越大越好。同理n hot特征即是其激活越均匀越好。
-
推论2: 某维度的特征变量自身variance越小,模型对应维度参数的variance越大。因此特征值的设计影响最终模型的variance,越均匀越宽泛的特征越能降低模型参数的variance。
3、当计算prediction的方差时:。假设变量间线性无关,即为对角矩阵。则最终的,m为特征维度,为0均值化,相当于,正比于当前样本本身偏离均值的程度加权对应参数variance的加权和。当前样本特征第i维特征偏离其均值越大,对应的参数的variance越大,则预估值的variance就越大。
PS:注意,对于0/1特征来说,其值的variance为,所以从总体样本上来说,取值越均匀越好(即推论2:特征变量variance越大,模型参数的variance更低)。在当前特定样本来说,取值为majority更好,其权重更低(比如90%取1,10%取0,均值为0.9,归一化后90%为0.1,10%为-0.9,明显0.1离均值0更近,最终加权和更小。)-
推论3: 待估样本特征数值取值越接近均值(majority),则其预估值的variance越小。可以以此来分析特定样本的预估区间大小关系。