自适应提升与梯度提升

自适应提升

提升方法通过前一个学习器所犯的错误来训练下一个学习器,是一种串行方法。关于提升算法有很多,最具代表性的是AdaBoost算法。

集成学习-组合多学习器中介绍的Adaboost方法,样本按概率被抽取作为训练子学习器的训练集。而每个子学习器根据前一子学习器的结果误差更新样本抽取概率,使被误分类的实例在后面的训练中得到更多的重视。

分类问题中,Adaboost方法还可以采用全样本数据训练每一个基学习器,根据前一子学习器的结果改变样本数据的权重,来使被误分类的实例得到更多重视。具体流程如下:

训练数据集T={(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)},其中x_i\in X \subseteq R^Ny_i\in Y=\{-1,+1\}
1)初始化训练数据权值分布
D_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N}), w_{1i} = \frac1{N},i=1,2,\cdots,N
2)对m=1,2,\cdots,M
  (a)使用具有权值D_m的训练集学习,得到基分类器
G_m(x):X\to \{-1,+1\}
  (b)计算G_m(x)在训练集上的分类误差率
e_m=P(G_m(x_i)\neq y_i)=\sum_{i=1}^Nw_{mi}I(G_m(x_i)\neq y_i)
  (c)计算G_m(x)的系数
\alpha_m=\frac12\log \frac{1-e_m}{e_m}
  (d)更新训练集的权重分布
D_{m+1}=(w_{m+1,1},\cdots,w_{m+1,i},\cdots,w_{m+1,N})
w_{m+1,i}=\frac{w_{mi}}{Z_m}\exp(-\alpha_my_iG_m(x_i))
Z_m=\sum_{i=1}^N w_{mi}\exp(-\alpha_my_iG_m(x_i))是规范化因子
3)构建基本分类器的线性组合
f(x)=\sum_{m=1}^M\alpha_m G_m(x)
得到最终分类器G(x)=sign(f(x))

回归问题情况下,则对上一个学习器拟合结果的残差进行学习,得到后面的学习器。

基学习器根据具体问题选定。一般常见的是提升树算法,adaboost的最决策树一般被认为是最好的机器学习算法之一。
而针对不同问题的提升树,主要区别在于使用的损失函数,包括回归问题的平方误差,分类问题的指数误差,或一般决策问题的一般损失函数。

梯度提升

提升树在学习过程中,当损失函数是平方损失和指数损失时,计算相对简单。但对一般损失函数,往往每一步优化不那么容易。基于此,梯度提升方法,通过学习前一个子学习器残差的负梯度,得到后面的学习器。典型的就是GBDT算法(回归树)。

训练数据集T={(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)},其中x_i\in X \subseteq R^Ny_i\in Y \subseteq R,损失函数L(y,f(x))f(x)为回归树。

1)初始化f_0(x)=\arg\min_c\sum_{i=1}^N L(y_i,c)
2)对m=1,2,\cdots,M
  (a)对i=1,2,\cdots,N,计算
r_{mi}=-[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i) }]_{f(x)=f_{m-1}(x)}
  (b)对r_{mi}拟合一个回归树,得到第m棵树,共有J个叶子结点,其叶子结点区域为R_{mj}j=1,2,\cdots,J
  (c)对j=1,2,\cdots,J,计算
c_{mj}=\arg\min_c \sum_{x_i\in R_{mj}}L(y_i,f_{m+1}(x_i)+c)
  (d)更新f_m(x)=f_{m-1}(x)+\sum_{j=1}^Jc_{mj}I(x\in R_{mj})
3)得到最终回归树f(x)=f_M(x)=\sum_{m=1}^M\sum_{j=1}^Jc_{mj}I(x\in R_{mj})

对比

推荐GBDT树的深度一般为6,对比DecisionTree/RandomForest需要把树的深度调到15或更高。原因在于Bagging主要关注降低方差,并行地训练很多不同的分类器的目的就是降低这个方差。因此它在不剪枝的决策树、神经网络等学习器上效用更为明显。

Boosting主要关注降低偏差,因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。Boosting来说,每一步我们都会在上一轮的基础上更加拟合原数据,所以可以保证偏差,所以对于每个基分类器来说,问题就在于如何选择variance更小的分类器,即更简单的分类器,所以我们选择了深度很浅的决策树。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,529评论 5 475
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,015评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,409评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,385评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,387评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,466评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,880评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,528评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,727评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,528评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,602评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,302评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,873评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,890评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,132评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,777评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,310评论 2 342

推荐阅读更多精彩内容