K-NN算法是最简单的分类算法,主要的思想是计算待分类样本与训练样本之间的差异性,并将差异按照由小到大排序,选出前面K个差异最小的类别,并统计在K个中类别出现次数最多的类别为最相似的类,最终将待分类样本分到最相似的训练样本的类中。与投票(Vote)的机制类似。
-
当k=3,对于一个新的点,k近邻算法就是找离这个新的点最近的一个点。
然后这三个点以自身属性进行投票,上图蓝色和红色比例是3:0,也就是说这个点更可能代表恶性肿瘤。
上图,蓝色和红色比例是1:2,说明更可能是良性肿瘤。 -
kNN算法主要解决机器学习中分类问题,次要解决回归问题。