大家好,我是一枚小小的北漂渣硕,为了更加有效率地督促自己系统的学习、及时将自己的学习心得分享给处于类似学习阶段的朋友,同时也为了获得大家的指导,我开启了自己的博文之旅,如果有侵权、错误等,请大家及时反馈,我一定改正。谢谢大家~~
本人目前正在学习机器学习,分享的内容也主要是知识、编程、自我的认知。好哒,开始正文。这段时间,我正在学习机器学习的核心算法,针对每种算法,我会分别用单纯的python算法和基于scikit-learn框架来实现。
K-NN算法(理论知识来自Peter Harrington的《机器学习实战》和李航的《统计学习方法》,非常感谢这些优秀人物和优秀书籍)
K-NN算法工作原理:KNN算法是1968年由Cover和Hart提出。存在一个样本数据集合, 也称作训练样本集, 并且样本集中每个数据都存在标签, 即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后, 将新数据的每个特征与样本集中数据对应的特征进行比较, 然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说, 只选择样本数据集中前k个最相似的数据,
这就是KNN算法中k的出处。通常,k是不大于20的整数(较大的k可以抑制噪声,但是会使得分类边界不明显)。最后, 选择k个最相似数据中出现次数最多的分类,作为新数据的分类
k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。
K-NN算法的适用场景:样本在50k-100k之间,具有明确的离散标签的数据分类或者有连续标签的数据回归。
K-NN算法的实现
流程:1)收集数据:提供文本文件; 2)准备数据:使用Python解析文本文件,同时如果特征值数据差异较大,需要做数值归一化处理;3)分析数据:使用Matplotlib画二维扩散图;4)测试算法:使用测试集来测试准确度;5)使用算法:将数据集合中的特征值输入程序就行分类
基础Python算法实现
1)首先准备数据(如果原始数据特征值值的大小差异大,最好先继续数据的归一化处理。一般常用的数值归一化方法有:最大最小值方法(最大值与最小值容易受异常点影响,鲁棒性较差,只适合传统精确小数据场景)和正太标准化方法(在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景))
2)将训练集集中的三个特征值绘制出来,代码见图2,效果见图3
3)接下来完成KNN算法
备注:获取数组的最值函数如min()或者max()以及包括后面的一些比较运算等,需要数组中数据具有统一的格式,否则会报错,因此,利用astype来统一成一样的数据类型
4)结合测试集,验证KNN算法的有效性(主要是基于错误率)
结果表明,KNN算法中,k的取值非常重要,影响算法的有效性,k的取值应该考虑所在数据集合的大小
好哒,至此基于Python完成了KNN算法的初步编程设计,下一节,我将基于scikit-learn来学习KNN算法,欢迎大家指点,也希望大家多多支持小菜鸟啦,如果对您有帮助,请赏我一杯咖啡钱吧~~