关于工业界variance的简单定性数值分析

Variance估计的难处

再次回顾一下Bengio 对当代DNN的理解：
Machine learning is essentially a form of applied statistics with increased emphasis on the use of computers to statistically estimate complicated functions and a decreased emphasis on proving confidence intervals around these functions.
当今工业界更注重模型对大规模数据，复杂函数的拟合能力，而（不得不）忽视其估计的区间。
其实传统的统计模型，对区间的估计一直是非常重视的，但是由于通常在工业界，数据量非常巨大，参数维度也很高，因此直接计算估计参数的Variance很困难，而且由于DNN模型收敛性的理论并不是很健壮（也没有解析解），所以这些在传统统计模型得到的bound并不一定能在工业界模型有那么优秀的表现。

下位替代

综上，所以我们在这里使用近似的方法来获得variance大小一些定性的分析。
以下分析参考了OLS的variance lower bound：（注意其理论lower bound其实有较多正态性假设，所以对特定场景需要谨慎细致地进行判断）

0、我们LR中模型参数 $\hat \beta$ 的协方差矩阵为 $\sigma^2 (X^T X)^{-1}$ （注意数据集 $X$ 要先处理成zero mean）
1、参数Variance的分子为样本的残余Variance。表明variance与其预估结果残余的方差成正比（不确定性），由于误差 $error=bias^2 + variance$ ，而无偏估计量 $bias=0$ ，相当于在当前模型下，误差都来自于 $variance$ ，所以对于无偏估计，我们通常可以直接用测试样本上残余的error（RSS）来当作总体variance的近似估计。
PS：这里直觉上其实也可以得到一个推论：模型继承了数据集残余的不确定性（数值上为RSS），起码模型的不确定性跟这个“残差“是正比的。residual越大（RSS），模型本身的variance也越大。因此我们可以得到如下结论：
推论1:最终样本上的residual越大，模型整体参数的variance越大。模型继承了数据集残余的不确定性，在概率模型中表现在logloss大小上。（PS：注意logloss本身是数值敏感的，需谨慎横向对比，同理类比概率 $p=0.1$ 和 $p=0.01$ 上相同的数值 $\sigma=0.01$ 作为区间带来的影响也是不同的。）
2、参数Variance的分母为dataset的covariance matrix(取逆可理解为分母)，表明其跟每个特征对应的方差（协方差）成反比。即出现的特征确定性越高，集中，区间小（方差小），则对应参数的variance越大。比如对于0/1二值的特征，其取值越极端，比如99%都是1，那么其variance越小，取了倒数反而其对应的参数的variance越大。换句话说，我们希望其特征的数值分布越宽泛，越“均匀”越好，才能降低预估参数的variance。数值特征即是其数值本身variance越大越好。同理n hot特征即是其激活越均匀越好。
推论2: 某维度的特征变量自身variance越小，模型对应维度参数的variance越大。因此特征值的设计影响最终模型的variance，越均匀越宽泛的特征越能降低模型参数的variance。
3、当计算prediction的方差时： $var(\hat y)=x_0^T var(\hat \beta) x_0$ 。假设变量间线性无关，即 $\sigma^2 (X^T X)^{-1}$ 为对角矩阵。则最终的 $var(\hat y) = \sum_{i}^{m} x_i^2 \times var(\hat \beta_i)$ ，m为特征维度， $x_i$ 为0均值化，相当于， $var(\hat y)$ 正比于当前样本本身偏离均值的程度加权对应参数variance的加权和。当前样本特征第i维特征 $x_i$ 偏离其均值越大，对应的参数 $\hat \beta_i$ 的variance越大，则预估值的variance就越大。
PS：注意，对于0/1特征来说，其值的variance为 $\frac {p(1-p)} {n}$ ，所以从总体样本上来说，取值越均匀越好（即推论2：特征变量variance越大，模型参数的variance更低）。在当前特定样本来说，取值为majority更好，其权重更低（比如90%取1，10%取0，均值为0.9，归一化后90%为0.1，10%为-0.9，明显0.1离均值0更近，最终加权和更小。）
推论3: 待估样本特征数值取值越接近均值（majority），则其预估值的variance越小。可以以此来分析特定样本的预估区间大小关系。

最后编辑于：2021.12.08 21:23:46

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

关于工业界variance的简单定性数值分析

Variance估计的难处

下位替代

推论2: 某维度的特征变量自身variance越小，模型对应维度参数的variance越大。因此特征值的设计影响最终模型的variance，越均匀越宽泛的特征越能降低模型参数的variance。

推论3: 待估样本特征数值取值越接近均值（majority），则其预估值的variance越小。可以以此来分析特定样本的预估区间大小关系。

推荐阅读更多精彩内容