1、前言 xgboost是在gbdt基础上进行了升级,所以xgboost也是通过每次拟合上次的残差(上次实际值与目标值之差),从而每次生成一棵树(CART回归树),最...
IP属地:北京
1、前言 xgboost是在gbdt基础上进行了升级,所以xgboost也是通过每次拟合上次的残差(上次实际值与目标值之差),从而每次生成一棵树(CART回归树),最...
1、前言 对于相同的数据及问题,可以有不同的算法模型解决,那么如何评价不通算法的优劣,以及最终应该选择哪一种?针对这些问题,本文将做简单介绍。 2、常见术语 过拟合:...
1、前言 对于分类任务,经常会遇到类别不平衡问题(不通类别训练样本数目差距较大),本文将对该问题给出常见的解决方法。 2、常用解决方法 2.1 欠采样(下采样) 欠采...
1、前言 统计相关问题系列第二篇,上一篇点这里 2、常见名词 极差(range):一组数据中最大值与最小值之差。 四分位差(IQR):一组数据中第75百分位数与第25...
1、前言 由于k近邻算法相对比较简单,故本文不会展开介绍该算法,只是对一些知识点进行整理。 2、相关知识点 2.1 最近邻算法 当k近邻算法中k取1时,则为最...
1、前言 朴素贝叶斯方法的实现相对简单,但是学习与预测的效率较高,该算法是除了集成学习算法之外较为常用的一种算法。 2、基本概念 想要理解该算法,需知道以下几...
1、信息熵(Ent(D)) 用来度量一组样本集合的纯度(信息熵越小,纯度越高)。假设在集合D中第k类的占比为,则D的信息熵为: 2、信息增益(Gain(D,a)) ...
1、前言 决策树是目前机器学习算法中使用较多的一种算法,即使在各大竞赛中(kaggle、天池等),使用较多的集成学习(GBDT、XGBoost、LightGBM、ca...