上一篇文章介绍了预剪枝,本文接着介绍后剪枝。 其实预剪枝和后剪枝都是为了防止模型过拟合。 我们先记住一句话。 后剪枝,就是将完整的树划分好之后,...
剪枝(pruning)是决策树学习算法对付"过拟合"的主要手段。在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决...
上一篇文章我们介绍了增益率,本文介绍基尼指数(Gini index)。 CART决策树使用基尼指数来选择划分属性。 CART是Classific...
上一篇文章我们介绍了信息增益,本文介绍增益率。 我们知道信息增益可以帮助我们构建决策树,但是信息增益准则有一个缺点。具体是什么缺点呢? 在上面的...
前面提到了信息熵,公式为:。本篇文章我们介绍信息增益。 我们先记住很抽象的一句话,属性划分样本所获得的信息增益。 如何理解呢? 我如何挑选出想要...
本篇文章我们介绍信息熵。 信息熵(information entropy)是度量样本集合纯度最常用的一种指标。信息熵的公式为: 怎么理解这句话呢...
前面提到了,决策树关键的问题在于选择,比如走到“每月收入=?”这个结点时,下一个结点选择“主营业务=?”还是“公司位于哪个地区=?”,这就涉及到...
下个学期开始就要讲数据挖掘了,有点开心,也有点紧张。数据挖掘不是单纯的讲解理论,更偏向于实践。所以除了把基础的概念讲清楚,如何带着同学们做一些有...
这几天在学习Django,简单记录一下。我用到的Django版本是4.0,目前完成的功能如下:1.可以在浏览器页面上展示本地数据库中的用户信息 ...