机器学习--回归问题、决策树、随机森林、GBDT、 XGBoost

零、特征工程(数据-特征-模型)

1、数据特征处理

* 数据选择 /清洗 /采样

* 数据型 / 类别型 /日期型 / 文本型特征处理

* 组合特征处理

2、filter/ wrapper/ embedded  三种特征选择方式


一、前言:

1、有监督学习/ 无监督学习/ 强化学习 

2、无监督学习 聚类算法,只有x,没有y,进行prediction  【啤酒、尿布 超市案例】

3、分类问题【猫或狗】/ 聚类问题/ 回归问题/ 降维问题【pca 】 

4、每行样本、每列特征

二、回归问题

1、线性回归(预测房价,面积/地段等

a、有监督学习,输出/预测的结果y 为连续的变量;输入x、y有线性关系。(用等式描绘出 递增/递减/线性关系)

b、多变量的话,x1、x2等,分配权重,显示出对y的贡献程度。

* 损失函数 (loss function

a、找到最好的权重/参数。 判定做的好不好,得出具体差异度【标准答案/ f(x)的答案】。  

b、 平方损失(凸函数-有全局最低点);训练集最优,真实世界的子集。

* 梯度下降

a、逐步最小化损失函数的过程,找到方向(斜率),上升最快的方向,直到最低点。a-步长(小些比较好,不要太小)

* 过拟合(a,b)与正则化

a、很多特征/模型复杂,假设函数曲线可以对原始数据拟合很好(训练集),但是丧失了一般性,导致新给的特征预测样本效果不好的情况。

b、一次函数/ 二次函数/ 曲线(过拟合,记下了所有的样本点,学习太好,能力太强,容易出现过拟合)

c、控制参数幅度,限制参数搜索空间。 (做题100道,不能背; 给1000道题,背去吧)

d、L1 正则化 ’谁他‘ 的绝对值,L2正则化’水塔‘的平方。

2、 逻辑回归

a、健壮性不够,噪声有的话,不稳定。

b、对离散值预测(分类),因为sigmoid函数叫回归。 s(x)取值(0,1)

c、判定边界分正样本、负样本。

* 损失函数 

a、与标准函数的差异,希望损失函数凸函数。

* 梯度下降

* 过拟合与正则化

3、工程应用

* 优缺点/ 样本处理/ 特征处理/ 算法调优

a、 LR  -- SVM/ GDBT/ RandomForest  对比

LR能以概率的形式输出结果,而非只是1,0的判定; LR的可解释性强,可控度高; 训练快,feature engineering 之后效果好; 因为结果是概率,可以做ranking model; 添加feature 容易。

b、应用

CTR预估/ 推荐系统的learning to rank /各种分类场景; 搜索引擎的广告CTR预估/ 搜索排序广告CTR预估/ 购物搭配推荐/ 一天广告赚1000w+的新闻app排序 等基线版都是LR; 

三、决策树、随机森林--GBDT、 XGBoost

1、决策树 Decision Tree

a、一定的条件(x),为达到最后的目标,比如相亲推测,客服电话等。得出一个确定的结果(y)。

b、把数据集分成两组,不同数据点被完美区分(Pure)开,- 不是:重复楼上两步 -是的:即可。

• 熵 Entropy

c、用什么条件进行分割?这时候就需要⼀个衡量Purity(纯洁度)的标准(metrics)

d、4是/0否 = 0是/4否   纯洁(pure)     H(s)= 0   熵最低

e、优势:- ⾮⿊盒- 轻松去除⽆关attribute (Gain = 0)- Test起来很快 (O(depth));劣势:- 只能线性分割数据- 贪婪算法(可能找不到最好的树)

•信息增益 Information Gain

a、选择哪个熵,用来增益来衡量;上一层没有分割前的不确定性减去上式的求和 ,越大越好,表示降的越多

•常见算法

a、ID3算法:对当前样本集合,计算所有属性的信息增益; 选择信息增益最⼤的属性作为测试属性,把测试属性取值相同的样本划为同⼀个⼦样本集; 若⼦样本集的类别属性只含有单个属性,则分⽀为叶⼦节点,判断其属性值并标上相应的符号,然后返回调⽤处; 否则对⼦样本集递归调⽤本算法

• 过度拟合 Overfitting

a、避免没必要的分裂。剪枝 Prune,(二叉树样子)把一部分数据放一边,试试结果,然后把数据放进来,看看结果如何变,如果没影响,就可以剪去(整体和去掉一半神经元 类似)

b、增益率 GainRatio 

•DT应⽤场景类别:

a、Attribute是连续的,⽽⾮Categoric; 多分类 Multi-Class; 回归Regression

2、决策树的究极进化 Ensemble

• Bagging  取一小部分(属性),子集化。 如下,数据4有个noise,其他几个数据都看不到。 综合结果。

• Random Forest

a、从原始训练数据集中,应⽤bootstrap⽅法有放回地随机抽取k个新的⾃助样本集,并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-ofbag,BBB)。---设有n个特征,则在每⼀棵树的每个节点处随机抽取m个特征,通过计算每个特征蕴含的信息量,特征中选择⼀个最具有分类能⼒的特征进⾏节点分裂。 ---每棵树最⼤限度地⽣长, 不做任何剪裁。 ---⽣成的多棵树组成随机森林, ⽤随机森林对新的数据进⾏分类,分类结果按树分类器投票多少⽽定。

• Boosting

a、先在原数据集中长出⼀个tree;把前⼀个tree没能完美分类的数据重新weight;⽤新的re-weighted tree再训练出⼀个tree;最终的分类结果由加权投票决定。

b、GBDT

GBDT预测年龄

c、XGBoost --X (Extreme) GBoosted

使⽤L1 L2 Regularization 防⽌Overfitting

对代价函数⼀阶和⼆阶求导,更快的Converge; 树长全后再从底部向上减枝,防⽌算法贪婪。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容