序 RF中有相应的缺失值处理方法,本次记录其两种缺失值处理技巧 暴力填补 Python中的na.roughfix包提供简单的缺失值填补策略:对于...
序 RF中有相应的缺失值处理方法,本次记录其两种缺失值处理技巧 暴力填补 Python中的na.roughfix包提供简单的缺失值填补策略:对于...
序 集成学习模型的一大特点是可以输出特征重要性,特征重要性能够在一定程度上辅助我们对特征进行筛选,从而使得模型的鲁棒性更好。 随机森林中进行特征...
序 boosting是集成学习中的一个大家族,本次记录boosting的相关概念以及与bagging的区别。 boosting思想 Boosti...
为何要剪枝 决策树递归地构建树,直到不能继续分裂下去为止,这样的树对于训练集可能拟合的较好,但对于训练集可能产生过拟合现象,原因是过多的考虑对训...
序 本次以及后续几次博客将陆续记录关于集成学习模型的相关知识点。 Ensemble概述 集成学习 就是构造若干模型并用它们的(加权预测/投票)值...
序 面试过程中经常会被问到关于方差和偏差的概念以及比对。 偏差 偏差度量了学习算法的期望预测值与真实结果间的偏离程度,也就是刻画了模型本身的拟合...
序 集成学习大类中常见的有两个子类:Bagging和Boosting。本次记录一下Bagging以及其代表模型RandomForest。 Bag...
序 本次记录朴素贝叶斯的相关原理,并上一张手写的面试级推导过程 朴素贝叶斯模型是什么? 朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。...
序 本次记录一下决策树的相关概念以及思想,后面博客再贴上具体的算法原理 一句话介绍 决策树是一种基本的分类与回归的判别式模式,在分类问题中,表示...
序 熵的概念中有信息熵、信息增益、信息增益比、基尼指数,这些统统作为决策树分裂的依据,其中,我们需要知道信息熵与基尼指数的关系。 信息熵与基尼指...
专题公告
收集秋招过程中,算法岗位同学的复习笔记或是感悟心得