Mechanical learning-Lecture4
Lecturer: Liming
1 统计机器学习
2 深度学习->连接主义(暗箱,易学,但解释)调包侠
拟合(连续)eg,横坐标:面积,纵坐标:房价,找到一条回归函数
分类(离散)eg,垃圾邮件分类,垃圾分类
Hypothesis,h(x)=sign(W”T”+b) = {1, W”T”+b>0
{0, W”T”+b<0
注:T是转置
感知机,SVM,逻辑回归的本质一样,只是最优分界面不一样。
优的标准:不好的尽量小
1感知机
分错到分界面的加和距离min,对0xx0误解
W”T转置”+b=0的一条线,法向量是W(->),
点到直线的距离=向量A·向量B/|向量B|=|向量A||向量B|cos<向量A , 向量B>/|向量B|=|向量A| cos<向量A , 向量B>
所以,
O是线外一点,P是线上的某点,点O到这条线的距离=<向量PO>乘<法向量W>/||法向量W||=(x01-x11, x02-y12)(W1,W2)/( W1,W2)
| W”T”+b|/ ||向量W||
Min求和{ | W”T”+b|/ ||法向量W|| }
优化目标化简,min-求和 { | W”T”+b| y}, y∈(-1,1)
梯度是导数,gradient decent梯度下降
求导梯度△W =偏导数J/偏导数W = 求和xy
普通的梯度下降再求解时是有问题的:只获得局部最优解,找到的是半山谷
解决方法:批量梯度下降,当目标函数为凸函数时,BGD一定能够得到全局最优解。
随机梯度下降。步子大一点,增加解的不确定性和震荡性,所以可能跳出局部最优解。
相关数学背景,参考:https://www.cnblogs.com/lliuye/p/9451903.html
感知机只能做线性的,不能求解析解(只能通过迭代完成)。
2 SVM支持向量机
斜率是w算的,取离这条线最近的左右2点,来使margin尽可能大,在两个最近点的中间
几何间隔r=max(r(i))=max{ | W”T”+b|/ ||法向量W|| }
函数间隔r^(i)=| W”T”+b|
几何间隔=Max{函数间隔/ ||法向量W||}
函数间隔=||W||几何间隔
使||W||>1,r(i))=(W”T”+b)y,即(W”T”+b)y >1, 即max=1/|w|,即min1/2||W||
多分类,是多个二分类。
多个不等约束
扩展--拉格朗日:
假设模型:求原点到y=1/x 曲线的距离
等高线理论,f(x,y)=x2+y2
根据等高线理论,相切这一点(○和曲线),方向一致。
▽梯度
▽f(x,y)= λ▽g(x,y),这样就把方向一致的信息描述进去了。
偏导数的值=0
满足s.t(subject to)g(x,y)=0
优化m,约束n,转变成无约束,但是需要优化的变量是m+n个,没有约束,就可以求导求解析解。
So,用拉格朗日求解min1/2||W||
对偶问题,KKT问题
逻辑回归
原始的阶跃函数不连续,不可导,所以转换成概率的拟合,使用sigmoid function分选,早期机器学习activation function
P(y=1|x)和P(y=0|x)可以整合在一起。
P(y|x)=h(x)^y*(1- h(x))^(1-y)
累乘
机器学习的人喜欢min,所以加了一个负号
根据链式求导法则,求导,化简特别简单的▽W=求和x(i)(h(x)-y(i))
找到好的模型,最具有样本代表性,联合概率分布尽可能大。累乘形式的优化目标,对数化,累乘变累加,链式求导法则求导,好看的结果,梯度下降,得到最优解。
逻辑回归是后验概率。
H(x)拟合的是判别为1的概率,如果大于0.5,说明可以判别的1类。这是分的开,分的好不好取决于你相信的阈值,0.2-0.8。用验证集去验证。
概率的cutoff,是根据样本的两种已知情况的比例。
数据处理,理解数据,特征向量找的好,决定了结果的上限。方法决定了结果的下限。
AUC分类问题评估。0.7以上入门,0.8可以接受,0.9好
补充
Q:SVM 离群点处理问题?
A:https://www.jianshu.com/p/81eee8b1d374