李航. 统计学习方法[M]. 清华大学出版社, 2012.
2.2 感知机学习策略
定义2.2(数据集的线性可分性):如果存在某个超平面S能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,则称数据集T为线性可分数据集(linearly separable data set),否则称数据集T线性不可分。
感知机的学习目标:找到完全正确分开的分离超平面。
损失函数定义为误分类点到超平面S的总距离(不考虑):
这个损失函数就是感知机学习的经验风险函数。
2.3 感知机学习算法
感知机学习算法的原始形式
感知机算法是对损失函数求极小化问题的解:
感知机学习算法是误分类驱动的,具体采用随机梯度下降法(stochastic gradient descent)。即首先任取,然后用梯度下降法不断极小化目标函数,极小化过程中一次随机选取一个误分类点使其梯度下降。假设误分类点集合M是固定的,那么损失函数的梯度为:
随机选取一个误分类点,对进行更新:
式中是步长,在统计学习中又称为学习率(learning rate)。感知机学习算法由于采用不同的初值或者不同的误分类点,解可以不同。
定理2.1(Novikoff)感知机算法收敛
令,,则。
设训练数据集是线性可分的,其中,,,则
(1) 存在满足条件的超平面将训练数据集完全正确分开;且存在,对所有
(2) 令,则感知机算法在训练数据集上的误分类次数k满足不等式
【证明】
(1) 仅证明存在性,由线性可分数据集定义即证。并取
作为数据集中所有样本距超平面的最小距离。
(2) 根据感知机算法,参数和的更新规则是
于是我们有如下两个不等式:
和
综合以上两个不等式,得
即
感知机学习算法的对偶形式
对偶形式的基本想法是将和表示为实例和标记的线性组合的形式,通过求解其系数而求得和。对于原始形式中的算法,关于的增量分别是和,其中,是点由于误分类而进行更新的次数。故最后学习到的参数为
在感知机学习算法的对偶形式中,输出的感知机模型,其中。感知机学习算法的对偶形式算法如下:
(1)
(2) 在训练数据集中选取数据
(3) 如果,则
(4) 转至(2)直到没有误分类数据
第3章 k近邻法
3.2 k近邻模型
模型
特征空间中,对每个训练实例点,距离该点比其他点更近的所有点组成一个区域,叫作单元(cell)。
距离度量
设特征空间是n维实数向量空间,,,的距离或Minkowski距离定义为:
* $$p=1$$时,曼哈顿距离(Manhattan distance)
* $$p=2$$时,欧氏距离(Euclidean distance)
* $$p=\infty$$时,表示各个坐标的最大值
k值的选择
- 选择较小的k值:近似误差(approximation error)会减小,估计误差(estimation error)会增大
- 选择较大的k值:估计误差小,近似误差大
3.3 k近邻的实现:kd树
kd树是二叉树,表示对k维空间的一个划分。利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。
构造平衡kd树算法:
输入:k维空间数据集,,
输出:kd树
(1) 开始:构造根结点,根结点对应于包含T的k维空间的超矩阵区域。
选择为坐标轴,以T中所有实例的坐标的中位数为切分点,将根结点对应的超矩阵区域切分为两个子区域。切分由通过切分点并与坐标轴垂直的超平面实现。
由根结点生成深度为1的左、右子结点:左子结点对应坐标小于切分点的子区域,右子结点对应于坐标大于切分点的子区域。
(2) 重复:对深度为j的结点,选择为切分的坐标轴,,以该结点的区域中所有实例的坐标的中位数为切分点,将该结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴垂直的超平面实现。
将落在切分超平面上的实例点保存在该结点。
(3) 直到两个子区域没有实例存在时停止,从而形成kd树的区域划分。
用kd树的最近邻搜索:
输入:已构造的kd树,目标点x
输出:x的最近邻
(1) 在kd树中找出包含目标点x的叶结点;从根结点出发,递归地向下访问kd树。若目标点x当前维的坐标小于切分点的坐标,则移动到左子结点,否则移动到右子结点。直到子结点为叶结点为止。
(2) 以此叶结点为“当前最近点”
(3) 递归地向上回退,在每个节点进行以下操作:
(a) 如果该结点保存的实例点比当前最近点距离目标点更近,则以该实例点为“当前最近点”。
(b) 当前最近点一定存在于该结点一个子结点对应的区域。检查该子结点的父结点的另一个子结点对应的区域是否有更近的点。具体地,检查[其兄弟结点对应的区域]是否与[以目标点为球心、以目标点到“当前最近点”间的距离为半径的超球体]相交:
* 如果相交,可能在另一个子结点对应的区域内存在距目标点更近的点,移动到另一个子结点。接着递归地进行最近邻搜索;
* 如果不想交,向上回退。
(4) 当回退到根结点时,搜索结束。最后的“当前最近点”即为x的最近邻点。
第4章 朴素贝叶斯法
4.1 朴素贝叶斯法的学习与分类
基本假设:
所有特征条件独立,即
基本思路:
通过训练数据集联合概率分布,学习先验概率和,后经过贝叶斯定理计算后验概率。
推导过程:
根据贝叶斯定理,有后验概率
于是朴素贝叶斯分类器可表示为
由于对任意一个类别,上式分母均相同,故可省略,即
后验概率最大化的含义:
朴素贝叶斯法将实例分到后验概率最大的类别中,等价于选择0-1损失函数作为损失函数时的期望风险最小化。
【证明】已知0-1损失函数:
此时,期望风险函数为
为了使期望风险最小化,只需对逐个极小化,由此得到:
4.2 朴素贝叶斯法的参数估计
即求先验概率和。
极大似然估计
贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为0的情况,影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计:
上式中。等价于在随机变量各个取值的频数上赋予一个正数。当时就是极大似然估计。常取,这时称为拉普拉斯平滑(Laplacian smoothing)。显然,对任何l和k,有和。