工作原理:(近朱者赤,近墨者黑)
存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较然后算法提取样本集中特征最相近数据(最近邻)的分类标签。我们只选择样本数据集中前k个最相似的数据,这也是为什么叫k-近邻算法的出处。最后,选择k个最相似的数据中出现次数最多的分类,作为新数据的分类。简化说就是在样本空间当中找到与样本A最接近的k个样本,假设在这个k个样本绝大多数属于C分类,则样本A也属于分类C
算法伪代码描述:
- 计算已知类别数据集中的点与当前点的距离;
- 按照距离递增的次序排序;
- 选取与当前点距离最小的k个点;
- 确定前k个点所在类别出现的频率;
- 返回前k个点出现频率最高的类别作为当前点的预测分类。
计算两个向量点之间的距离采用欧氏距离公式:
sqrt((xa - xb)2 + (ya - yb)2)
python代码实现:
def classify0(inX, dataSet, labels, k):
# shape 返回一个整型数字的元组,元组中的每个元素表示相应的数组每一维的长度
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat ** 2
# axis=1是将一个矩阵的每一行向量相加
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances ** 0.5
# 返回从小到大排序的索引
sortedDistIndicies = distances.argsort()
# 创建一个字典,用于存储前K个点所出现的频率
classCount = {}
for i in range(k):
voteLabel = labels[sortedDistIndicies[i]]
classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
# 排序后返回的是一个List,而原字典中的键值对被转换为了list中的元组。
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]
但由于计算距离的时,数字差值最大的属性对计算的结果影响最大,但每个特征是同等重要的,在处理这种不同取值范围的特征值时,我们通常采用的方法是将数值归一化,如将取值范围处理为0到1或者-1到1之间。下面的公式可以将任意取值范围的特征值转化为0到1区间内的值:
newValue = (oldValue - minValue) / (maxValue - minValue)
python代码实现:
# 数据归一化:newValue = (oldValue - minValue) / (maxValue - minValue)
def autoNorm(dataSet):
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges = maxVals - minVals # (maxValue - minValue)
normDataSet = zeros(shape(dataSet))
m = dataSet.shape[0] # return number of line
normDataSet = dataSet - tile(minVals, (m, 1)) # (oldValue - minValue)
normDataSet = normDataSet / tile(ranges, (m, 1)) # (oldValue - minValue) / (maxValue - minValue)
return normDataSet, ranges, minVals
k-近邻算法是分类数据最简单最有效的算法,k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。k-近邻算法必须保存全部数据集,如果训练数据集很大,必须使用大量的存储空间。此外,由于必须对数据集中每个数据计算距离值,实际使用时可能非常耗时。