作者自认才疏学浅, 对机器学习仅略知皮毛, 更兼时间和精力所限, 文中错谬之处甚多, 虽每次发布均对错处或易误解处做勘误修订, 但仍在所难免, 若蒙读者诸君不吝告知, 将不胜感激. (借周老师的一段话, 谢谢大家)
更新:
感谢@他说_1f65 的指正,尽信书不如无书,谢谢指正
引用自<机器学习>书籍官网: 勘误修订
第一版第30次印刷, 2018年12月):
p.38, 式(2.27):"" --> ""
周志华 机器学习的2.4.1节中提了一下假设检验中的二项检验
看到网上的各种读书笔记只是提了一下, 并没有详细解释具体怎么用二项检验来做假设检验的. 其中的原理和背后的思路是什么都没有提及.
知乎上也有个没人回答的寂寞问题: https://www.zhihu.com/question/287895170
在书上解释二项检验的篇幅不多, 但是我花了许多时间来理解.
数学不好, 所以解释起来一定有很多瑕疵, 请见谅
1. 为什么能用二项分布来进行检验?
按照书上的说法, 假设检验"是对学习器泛化错误率分布的某种判断或者猜想"
首先引入一个重要的假设:
H1: 一个学习器中的错误与其他部分是独立不相关的(independent identically distributed)
由此可以得到一个推论:
每次随机采样中的错误率
这是书上使用二项分布来描述测试错误率的分布的前提
2. 书上2.27那个公式到底在表达什么意思?
书上2.27的公式如图
step 1
首先先看 的右边除去求和项的部分:
这是个二项分布公式,
所以我们能画出二项分布的概率密度曲线:
- 这里我用正态分布近似了, 为了方便理解
- x轴我用样本中错误率代替了样本中错误个数(误分类样本数) , 因为如果每次取样的样本数 固定的话, 那么
- y轴的概率是: "学习器对样本做出的预测的错误率为 的概率"
step 2
再看求和符号
这里求的是: 学习器对样本的预测的错误率满足的概率, 如图中红色区域所示:
step 3
看需要满足的不等式条件
书上已经写了这个 其实就是上一步中的"学习器对样本的预测的错误率满足的概率"
也就是要满足"红色区域的面积"
能满足"红色区域的面积"的分布可能有很多,
但是根据 左边的式子
我们要找到满足这个条件的所有可能的中最小的那一个
为什么要取最小的那一个?
因为二项分布的期望 , 也就是说在n固定(样本总数固定)的情况下, 采样错误率越大, 那么整个图形就越靠右. 导致红色区域面积变大
所以如果要满足"红色区域的面积", 必定取错误率小的分布(靠左).
此时, 我们能得到一个满足临界条件的分布
因为期望, 所以在我们的图上画出来就刚好是中线(请记住我们把x轴从误分类样本数, 变为了错误率)
3. 怎么理解这个公式之后的结论?
书上给了个结论特别拗口:
此时若测试错误率小于临界值, 则根据二项检验可得出结论: 在的显著度下, 假设"" 不能被拒绝, 即能以的置信度认为, 学习器的泛化错误率不大于; 否则该假设可被拒绝, 即在的显著度下可认为学习器的繁华错误率大于
每个字都认得但是这句话是什么鬼意思...
step 0 重申下假设检验方法.
假设检验的方法是:
- 已知某个事件有个确切的发生概率
- 我们对这个时间假设了一个发生概率
- 我们通过对样本进行观测, 得到了观测概率
如果以假设概率的视角来看, 观测概率是一个几乎不可能发生的事件(处于置信区间之外), 那么我们否定假设概率
(类似于反证法, 如果原命题成立, 则x事件不会发生, 但是实际情况是x事件发生了, 所以原命题不成立)
step 1 用硬币实验重新定义置信度
置信度我们应该很熟悉了, 但是这里要扩展一下
之前我一直陷入了一个思维误区是, 置信度的意义是:
假设我们有一个真实的分布, 比如做N次"抛硬币50次看正面朝上的概率"的实验, 我们能得到硬币正面朝上分布, 然后我们取正面朝上的概率, 有的概率是处于以0.5 为中心的某个置信区间内的. 如下图所示, 红色线段代表这个置信区间:
然后我看了这个课件
发现有另一种表述方式也是对的:
假如我们做N次"抛硬币50次看正面朝上的概率"的实验, 我们能得到硬币正面朝上分布, 然后我们取正面朝上的概率, 硬币正面朝上的真实概率0.5有的概率会在"以为中心的某个置信区间"内
注意区分加粗斜体部分的区别, 我们把这个画下来:
乍看上去这只是一句同样的话反过来说, 但是我们可以把这个表述应用到我们的问题中去
step 2 解释
首先, 我们找到一个分布, 这个分布, 这个分布满足有(e.g. 95%)的概率, 错误率
如果我们观测到的测试错误率 小于, 那么这是一个更加靠左的曲线
所以根据step 1 的结论:
这个测试错误率意味着:
真实错误率有 的概率落在红色线段所在的区域内
也就是说
真实错误率有 的概率落在小于的区间内
step 3 补充
其实上面这个模型有点简化了,
二项分布的方差也和它的概率相关的:
这意味着从公式上说有可能在减小的过程中, 分布变得更宽导致置信度置信区间变宽(p = 0.5时最宽)
但其实并不会.
它的累积分布函数是:
作图出来是这样的
可以看到随着概率的减小, 达到80%发生概率所需要的次数也变小了
在我们的这个例子里, 就是随着错误率的减小, 达到置信度的所需要的误分类样本数也变少了, 就是说上图中的红色线段还是向左移动的, 只是说移动的速率可能和的减小不是线性关系
最后
其实我写完了发现可能我的解释有点过于复杂了, 核心其实就是关于置信度的理解的转变上面.
但是写这么啰嗦是希望以后过一段时间我再看, 能通过自己这个笔记理解二项检验...