k 均值聚类算法的工作流程是这样的:首先选取 k 个点,作为初始 k 个簇的中心(这个 k 是人为设定的超参数),然后将其余的数据对象分配到距离自己最近的簇中心所在的簇中。假...
k 均值聚类算法的工作流程是这样的:首先选取 k 个点,作为初始 k 个簇的中心(这个 k 是人为设定的超参数),然后将其余的数据对象分配到距离自己最近的簇中心所在的簇中。假...
俗语有云:“人以群分,物以类聚”。简单来说,聚类指的是将物理或抽象对象集合分成由相似对象组成的多个类的过程。从这个简单的描述中可以看出,聚类的关键是如何度量对象间的相似性。 ...
我们知道,深度学习网络是目前非常热门的研究议题。但在本质上,深度学习网络就是层数较多的神经网络。虽然 sklearn 并不支持深度学习,但久经时间考验的多层感知机(浅层神经网...
聚类操作得有数据才行,这里我们先用 sklearn 的数据生成工具 make_blobs( ) 来合成所需的数据。make_blobs( ) 方法常被用来生成聚类算法的测试数...
在掌握 Logistic 回归的基本原理之后,下面我们通过实战来感受一下这个模型。由于模型的求解过程(如梯度下降法、牛顿法)和正则化流程都被封装在机器学习框架(如 sklea...
本节教程我们来讨论另外一种被广泛应用的分类算法— Logistic 回归。在讲解这个概念之前,我们先来聊一个题外话—“Logistic regression”的中文译法。“r...
如何自学成长入门阶段目标一:会用数据分析的方式解决一些简单的业务问题1.通读《深入浅出数据分析》 所有问题一开始都会有实际业务场景的引入 然后会告诉你如何在实际的沟通中提取信...
k 均值聚类算法的优点很明显,那就是原理简单、易于操作,并且执行效率非常高,因此该算法得到了广泛的应用。但它也有不足,大体上有以下四点。 1) k值需要事先给出 通过对 k ...
本教程中的 k-近邻算法实战,使用的数据集是非常经典的鸢尾花数据集。该数据集最初是由美国植物学家埃德加·安德森(Edgar Anderson)整理出来的。在加拿大加斯帕半岛上...
k-近邻算法的工作机制并不复杂:给定某个待分类的测试样本,基于某种距离(如欧氏距离)度量,找到训练集中与测试样本最接近的 k 个训练样本,然后基于这 k 个最近的“邻居”(k...
下面使用前面学到的回归分析的知识,借助机器学习框架 sklearn,实现波士顿房价的预测。 这个案例使用的数据集(Boston House Price Dataset)源自 ...
线性回归(Linear Regression)模型是最简单的线性模型之一,很具代表性,甚至有学者认为,线性回归模型是一切模型之母。所以,我们的机器学习之旅,也将从这个模型开始...
如果我们仅安装 Python 语言包,作为第三方模块的 sklearn 是不会默认安装的(毕竟,不是每个学习 Python 的人都喜爱机器学习)。但如果我们是利用 Anaco...
如果能基于“自己动手,丰衣足食”的原则,自行实现机器学习的各种经典算法,固然是好的,且好处很明显:能让自己对机器学习算法的细节了然于胸。 但即使我们使用了简单而高效的 Pyt...
与 P-R 曲线相比,ROC 曲线则有更多的优点。下面就来讨论一下 ROC 曲线,以及与其密切相关的 AUC。 ROC曲线 ROC 曲线是英文“receiver operat...
在分类时,我们经常需要对学习模型的预测结果进行排序,排在前面的被认为“最可能”是正类样本,排在后面的被认为“最不可能”是正类样本。因此我们往往要在中间设定一个临界值(Thre...
查全率、查准率都和正类样本密切相关。为了便于理解这几个概念,我们给出如图 1 所示的示意图。 图 1:查全率与查准率 图中实心小圆圈代表正类样本,空心小圆圈代表负类样本,大圆...
二值分类器(Binary Classifier)是机器学习领域中应用最为广泛的分类器之一。在二分类的应用场景下,我们可以根据真实类别和预测类别的不同组合,将样本划分为如下四类...
我们知道,同一个问题,可采用多种机器学习模型来解决,那如何评价这些模型的好坏呢?这时,就需要构建一系列“靠谱”的标准。因此,提及机器学习,性能评估是一个绕不开的话题。 训练误...
随着微信的普及,越来越多的人开始使用微信。微信渐渐从一款单纯的社交软件转变成了一个生活方式,人们的日常沟通需要微信,工作交流也需要微信。微信里的每一个好友,都代表着人们在社会...