大师兄的数据分析学习笔记(十八）：分类模型(四）

大师兄的数据分析学习笔记(十七）：分类模型(三）
大师兄的数据分析学习笔记(十九）：分类集成（一）

四、支持向量机

4.1 关于支持向量机

支持向量机（Support Vector Machine, SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。
如果把数据的每一个属性当做维度，那个每一条数据就是一个多维空间中的点。
假设有两个标注的数据，如果用一条线分开，会有无数种分法。
其中区分度最大的方法是，在充分将样本分开的情况下，在两个标注样本中分别找出离这条线最近的点，他们离这条线的距离是一样的，并且他们离这条线的距离之和是最大的。
此时，离这条线最近的两个数据的样本，就是支持向量机(Support Vector Machine)中的支持向量。
从数学角度分析：

多维空间中的维度用向量 $x$ 表示，其分量 $x_n$ 代表各维度： $x^T = [x_0,x_1,x_2,...,x_n]$ 。

$\omega$ 代表维度中的面，也叫超平面： $\omega^T = [\omega_0,\omega_1,\omega_2,...,\omega_n]$ 。

高维面: $\omega^Tx+b = 0$

分界面： $\omega^Tx_p + b \geq \epsilon$ $\omega^Tx_p + b \leq -\epsilon$ -> $\omega^Tx_p + b \geq 1$ $\omega^Tx_p + b \leq -1$

-上面公式简化后： $y_i(\omega^Tx_i+b)\geq1$

根据点到面的距离公式： $d = |\frac{Ax_0+By_0+Cz_0+D}{\sqrt{A^2+B^2+C^2}}|$ , 公式中的 $A、B、C$ 就是维度中的面，也就是 $\omega$ 。

因此，间隔最大的切分也就是 $max\frac{2}{\omega^2}$ $min\frac{||\omega^2||}{2}$ 。

$s.t. y_i(\omega^Tx_i+b)\geq1 拉格朗日乘数法-> L = \frac{1}{2}||\omega||^2 - \sum_{n=1}^Na_n*\{y_n(\omega^Tx_n+b)-1\}$

4.2 特殊情况处理

在真实情况下，正负标注通常不是线性可分的：
通常有两种思路解决这类问题：

1. 容忍一部分的错误归类

在左上图的示例中，意味着在 $L = \frac{1}{2}||\omega||^2 - \sum_{n=1}^Na_n*\{y_n(\omega^Tx_n+b)-1\}$ 公式中，存在一些 $y_j(\omega_j^T+b)<1$ 的情况，也就意味着 $max(L)$ 为无穷大，这是不能容忍的。
所以需要在这些最大值的基础上，求一个最小值： $min(max(L))$ ，尽量降低错误归类的影响。

2. 扩维

如由上图的示例中，可以在 $x_1,x_2$ 的基础上，增加第三维 $x_1^2+x_2^2$ 。
相当于将每个点的坐标离中心点距离这个特征进行了提取。(点击查看视频)
由于标注的可能性比较多，所以在扩围时，需要把可能涉及的维度都考虑到。

比如用多项式扩维法从二维扩围到五维： $(x1,x_2)->(x_1,x_2,x_1x_2,x_1^2,x_2^2)$

而从三维用同样的方法可以扩展到十九维。

所以为了避免维度灾难，需要改变先映射，再计算，使用先计算，再扩围的方式。
而这种转换方式需要使用核函数 $f(x) = \sum a_iy_i<\Phi(x_i)\Phi(x)>+b$ ，有以下几种：

线性核函数： $k(x,x_i)=x\times x_i$

多项式核函数： $k(x,x_i)=((x\times x_i)+1)$ ^d

高斯径向基(RBF)核函数： $k(x,x_i)=exp(-\frac{||x-x_i||^2}{\delta^2})$

相对于决策树，支持向量机的模型更平滑：

4.3 问题处理

1.少部分异常

如果少数点对分类影响很大，如果忽略他可以获得分隔更大的分类器。
在这种情况下可以引入松弛变量，所谓松弛变量就是在原来的公式里加入衡量松弛度的变量。
松弛变量为了达到更宽的分界线，可以容忍少量的错分点，减少过拟合的出现。

2.样本不平衡

在样本不平衡的情况下，如果用SVM分类，样本会更靠近白色的部分。
这种情况需要根据实际业务场景判断，如果是因为采样不科学等操作误差引起的，就需要对不同的标注加权，从而影响超平面的边界位置。

3.多分类问题

如果有多个分类的情况，有以下两种解决方式：

有几个分类，就建几个SVM，将样本的每个SVM都跑一遍，找成功分类并且离超平面最远的作为正确分类。

在分类两两之间分别建立SVM，取出其中被分类次数最多的分类作为正确分类。

4.4 代码实现

>>>import os
>>>import pandas as pd
>>>import numpy as np
>>>from sklearn.model_selection import train_test_split
>>>from sklearn.metrics import  accuracy_score,recall_score,f1_score
>>>from sklearn.svm import SVC

>>>models = []
>>>models.append(("SVM Classifier",SVC()))

>>>df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>X_tt,X_validation,Y_tt,Y_validation = train_test_split(df.JobLevel,df.JobSatisfaction,test_size=0.2)
>>>X_train,X_test,Y_train,Y_test = train_test_split(X_tt,Y_tt,test_size=0.25)

>>>for clf_name,clf in models:
>>>    clf.fit(np.array(X_train).reshape(-1,1),np.array(Y_train).reshape(-1,1))
>>>    xy_lst = [(X_train,Y_train),(X_validation,Y_validation),(X_test,Y_test)]
>>>    for i in range(len(xy_lst)):
>>>        X_part = xy_lst[i][0]
>>>        Y_part = xy_lst[i][1]
>>>        Y_pred = clf.predict(np.array(X_part).reshape(-1,1))
>>>        print(i)
>>>        print(clf_name,"-ACC",accuracy_score(Y_part,Y_pred))
>>>        print(clf_name,"-REC",recall_score(Y_part,Y_pred,average='macro'))
>>>        print(clf_name,"-F1",f1_score(Y_part,Y_pred,average='macro'))
>>>        print("="*40)
0
SVM Classifier -ACC 0.3197278911564626
SVM Classifier -REC 0.2620657705498396
SVM Classifier -F1 0.19869489047039893
========================================
1
SVM Classifier -ACC 0.29591836734693877
SVM Classifier -REC 0.23682033096926713
SVM Classifier -F1 0.18196778711484593
========================================
2
SVM Classifier -ACC 0.2755102040816326
SVM Classifier -REC 0.22332554517133957
SVM Classifier -F1 0.1684558664064194
========================================

最后编辑于：2022.07.30 06:53:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,681评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,710评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,623评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,202评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,232评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,368评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,795评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,461评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,647评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,476评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,525评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,226评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,785评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,857评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,090评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,647评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,215评论 2赞 341

大师兄的数据分析学习笔记(十八）：分类模型(四）

四、支持向量机

4.1 关于支持向量机

4.2 特殊情况处理

1. 容忍一部分的错误归类

2. 扩维

4.3 问题处理

1.少部分异常

2.样本不平衡

3.多分类问题

4.4 代码实现

推荐阅读更多精彩内容