简介 K均值聚类,也叫做K-Means Clustering,是一种著名的用于分类问题的无监督机器学习聚类算法。聚类是针对给定的样本, 依靠它们...
简介 集成学习,顾名思义就是将多种学习器或算法结合在一起,共同做出决策。这符合人类集思广益的做法,在业界也是应用最为广泛的方法之一。注意,集成学...
简介 大概是今年6月份参加微信大数据挑战赛的时候,我才开始认识到特征选择也是机器学习中非常重要的一环。在诸如CTR等比赛中,原始特征往往是不足以...
简介 决策树模型是最常见的机器学习方法之一,也是入门机器学习必须掌握的知识。决策树模型呈现树形结构,在分类问题中,表示基于特征对实例进行分类的过...
简介 特征离散化指的是将连续特征划分离散的过程:将原始定量特征的一个区间一一映射到单一的值。离散化过程也被表述成分箱(Binning)的过程。特...
简介 本文主要说明特征工程中关于序数特征和类别特征的常用处理方法。主要包含LabelEncoder、One-Hot编码、DummyCoding、...
简介 朴素贝叶斯(naive Bayes)算法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输...
简介 在介绍比较复杂的数据类型比如图像和文本数据类似之前,我们首先从最简单的数据类似开始,即:数值类型。我们收集到的数据中,数值类型数据占据了大...
前言 上个月参加了微信大数据挑战赛,由于是第一次参加类似的比赛,并没有什么经验,最终也没有进复赛。不过在这期间还是学到了很多知识,尤其是特征处理...