背景 最近在训练树模型的时候遇到了一个问题:在一次手动特征工程之后,我从原始数据衍生了3个类别型特征,随后加入模型训练,以期望带来模型效果的提升。但最终实验结果出乎意料:加入...
背景 最近在训练树模型的时候遇到了一个问题:在一次手动特征工程之后,我从原始数据衍生了3个类别型特征,随后加入模型训练,以期望带来模型效果的提升。但最终实验结果出乎意料:加入...
embedding 的原理 embedding 层做了个什么呢?它把我们的稀疏矩阵,通过一些线性变换(在CNN中用全连接层进行转换,也称为查表操作),变成了一个密集矩阵,这从...
没有逻辑回归之前,我们是怎么思考一个分类问题呢? Gaussian distribution (高斯分布) 假设在一个平面直角坐标系上朝原点扔飞镖,投掷的结果会产生随机误差。...
之前的文章写在了 CSDN,暂时没有挪过来https://blog.csdn.net/v_princekin/article/details/78563572[https:/...
一、模型介绍 上一篇文章介绍了一个梯度提升决策树模型 XGBoost[https://www.jianshu.com/p/305e4c43ab45],这篇文章我们继续学习一...
一、模型介绍 XGBoost 是 boosting 算法的其中一种。Boosting 算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为 XGBoost 是一种提升树...
一、模型介绍 GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升决策树。 GBDT 也是集成学习 Boosting 家族的成员,但是...
一、模型介绍 Adaboost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。A...
不同的机器学习任务有着不同的性能评价指标。例如,分类问题,可以使用准确率 (Accuracy)、对数损失函数 (log-loss)、AUC等评价方法。实数序列数据预测问题,可...
一、模型介绍 随机森林是一种由决策树构成的集成算法. 随机森林属于集成学习中的 Bagging. 用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树...
最优化处理寻找一个函数的最小值(最大值或零)的问题。在这种情况下,这个函数被目标函数。本文中,我们使用 scipy.optimize 来进行黑盒优化。 我们不依赖于我们优化的...
很多业务场景中,我们希望通过一个特定的函数来拟合业务数据,以此来预测未来数据的变化趋势。(比如用户的留存变化、付费变化等)本文主要介绍在 Python 中常用的两种曲线拟合方...
集成学习归属于机器学习,它是一种 ‘训练思路’,并不是某种具体的方法或者算法。集成学习的核心思路就是 ‘人多力量大’,它并没有创造出新的算法,而是把已有的算法进行结合,从而得...