【机器学习基础】线性可分支持向量机

引言

接下里的一系列有关机器学习的博文,我将具体的介绍常用的算法,并且希望在这个过程中尽可能地结合实际应用更加深入的理解其精髓,希望所付出的努力能得到应有的回报。
接下来的有关机器学习基础博文主要根据机器学习技法课程的学习,围绕特征转换(feature transforms)这个主要工具,从以下三个方向进行探讨:

  1. 如果现在有很多特征转换可以使用的时候,我们该如何运用这些特征转换,如何控制特征转换中的复杂度的问题,从这个角度刺激了支持向量机(Support Vector Machine)算法的发展。
  2. 我们该如何将具有预测性质的特征混合起来,让整个模型拥有更好的表现,从这个角度衍生出逐步增强法(Adaptive Boosting,AdaBoost)模型。
  3. 我们该如何找出数据中的隐藏的特征,或者说机器如何从中学习出来,让机器表现地更好,从这个角度出发,刺激了之前的类神经网络成为近年来的深度学习领域。

这一小节,我们从线性的支持向量机开始,一点一点地延伸到更加复杂的模型。

最大间隔分离超平面(Large-Margin Separating Hyperplane)


就上图给出的分类问题而言,三个图中的分类平面都正确的把训练数据分成两类(训练误差为0),且线性分类模型的复杂度是维度加1(d+1),那么我们该如何解释最右边图的分离平面要更优呢?
由于高斯噪声的存在,对于左面的图而言,如果在靠近分离平面的点的周围有与该点是同一类别的数据就很容易被判错,故这几幅图的区别在于,其分离平面对于测量误差的容忍度不同,相比较,右侧图对避免测量误差发生的健壮性更好。
所以,实际上,我们希望该分离平面距离训练数据越远越好。


重新叙述一下该问题,我们希望分离平面对数据的泛化能力更好,就希望所有点到线的间隔越大越好。所以我们的目标是,找到最大间隔的分离平面,这个平面要满足两个条件,一是该分离平面能正确分离两类数据(即yn=sign(wTxn),yn与wTxn同号),二是该分离间隔取所有点中离平面最近的数据。


标准最大间隔问题(Standard Large-Margin Problem)

上面,我们要求一个最大间隔分离平面,得到了一个待求解的最佳化问题。接下来,我们将要探讨一下在最佳化求解中点到平面的距离要如何计算。
1. Large-Margin Separating Hyperplane

2. Distance to Separating Hyperplane
我们定义向量w=(w1,...,wd),向量x=(x1,...,xd),截距b=w0。


我们现在考虑在平面的两个点x'和x",它们都满足方程wTx'+b=0、wTx"+b=0。
x"-x'表示平面上的一个向量,在这个平面上w是该平面的法向量。
所以点到平面的距离是,该点到平面上任意一点构成的向量对该平面的法向量做投影所得到的距离。


由于我们考虑的分隔平面是将正负例数据都正确分开的平面,所以该公式还需要满足一些性质:
我们要求所计算的分数wTxn+b与yn是同号的,这样就可以将上面的距离公式中的绝对值符号去掉。

所以,我们的目标修正为下面的式子:

3. Margin of Special Separating Hyperplane
到现在,我们还是没法求解这个问题,所以还需要更进一步的简化。
我们观察到wTx+b=0,同时3wTx+3b=0,这种放缩还是表示同一个平面。我们就会想到这些系数似乎是可以放缩的。
对间隔的放缩对最优化问题不等式约束没有影响,对目标函数的优化也没有影响,所以这是一个等价的优化问题。


于是我们的线性可分支持向量机的最优化问题化简为:

4. Standard Large-Margin Hyperplane Problem
最后一步,我们希望找到更好求解的方式。
我们将min yn(wTxn+b)=1这个条件放宽松成yn(wTxn+b)>=1这个条件,且这个条件并没有影响最终的最佳解。
最大化1/||w||和最小化||w||^2/2是等价的,于是得到最终的最优化问题:

最佳化的求解

支持向量


从上图可以看出,我们可以找出距离分隔平面最近的点使得该点距离平面的距离最大,即使将其他不相干的数据点去掉,该结果依然成立。所以说,距离分隔平面最近的点已经唯一确定了这个平面,故这些点叫做支持向量(support vector)。

求解一般的SVM问题


我们回看要求解的最佳化问题,发现其满足两个特点:

  1. 目标函数是关于(b,w)的凸二次函数
  2. 不等式约束是关于(b,w)的一次式

这样特性的最佳化问题称作被约束的(凸)二次规划(convex quadratic programming)问题。

二次规划


上面我们将我们待解的问题和二次规划的标准形式作了对比,得到了我们的问题在标准形式中表示方式:



剩下的事情可以用可以解决二次规划的软件工具来求解了。

小结

下面给出了确定二次规划的系数,求解模型参数,并得到svm的模型gSVM的过程。


理论分析

SVM和正则化的解释

SVM和我们直接介绍的正则化是有相似的地方的,不同在于SVM将wTw作为最小化的目标函数,而将Ein=0作为约束条件。
所以SVM就是一种正则化的表现,我们希望有最大的间隔,其实就是希望最终的模型能够对测量误差有更好的健壮性。


从VC理论解释

这里我们不给出具体的证明,只是从定性的角度来解释。
如果我们要给最大的间隔加上一些限制(要求最大的间隔要大于某个常数),这可能使得将数据分开的情形种类减少了,这样使得VC维减小,这使得模型复杂度得到了有效的控制。


接下来

从上面的VC维解释可以得到一个简单的结论,就是SVM对间隔的限制可以有效减低VC维,控制复杂度,得到比较好的泛化能力;还有,如果我们能结合非线性变换,就可以得到复杂的边界。接下来,就会延伸到线性不可分的SVM,通过SVM控制复杂度的方法,更好的使用各式各样不同的特征转换。


转载请注明作者Jason Ding及其出处
Github博客主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
百度搜索jasonding1354进入我的博客主页

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容