Perceptron & KNN(面试准备)

1、简述感知机模型并证明其收敛性

感知机是二分类的线性分类模型,感知机对应于特征空间中将实例划分为正负两类的分离超平面,属于判别模型

感知机模型如下:

f(x)=sign(w\cdot x + b)

其损失函数为误分类的样本到超平面的几何距离之和(去掉系数\frac{1}{||w||}):

L(w,b)=-\sum_{x_i\in M}y_i(w_i\cdot x_i+b)

从而损失函数的梯度为:

\bigtriangledown_w L(w,b)=-\sum_{x_i\in M}y_i x_i

\bigtriangledown_b L(w,b)=-\sum_{x_i\in M}y_i

随机选择一个误分类点(x_i,y_i),对w,b进行更新,就得到感知机学习算法:

w\gets w+\eta y_i x_i

b\gets b+\eta y_i

每次找一个误分类点作上述操作,直至找到一个超平面将所有点正确分类(若样本点线性可分)。

其收敛性的证明也很简单,思路就是设有一个w_{opt}(含b),使得分类结果全部正确,则我们的模型可以不断调整w_k方向并在有限步使得w_kw_{opt}同向(证明见here)。

2、简要介绍 KNN 算法

  1. KNN 是一种基本的分类与回归方法。
  • 分类问题:对新的样本,根据其K个最近邻的训练样本的类别,通过多数表决等方式进行预测

  • 回归问题:对新的样本,根据其K个最近邻的训练样本标签值的均值作为预测值

  1. 近邻法不具有显式的学习过程,而是直接预测。它是 lazy learning 的著名代表。

  2. 近邻法是非参数学习算法,它没有任何参数(K是超参数,而不是需要学习的参数)

3、KNN 算法的优点缺点

KNN的主要优点有:

  1. 理论成熟,思想简单,既可以用来做分类也可以用来做回归

  2. 可用于非线性分类

  3. 训练时间复杂度比支持向量机之类的算法低,仅为O(n)

  4. 对数据没有假设,准确度高,对异常点不敏感

KNN的主要缺点有:

  1. 计算量大,尤其是特征数非常多的时候

  2. 样本不平衡的时候,对稀有类别的预测准确率低

  3. KD树,球树之类的模型建立需要大量的内存

  4. 使用懒散学习方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢

  5. 相比决策树等模型,KNN 模型可解释性不强,无法说明各特征对分类的重要性

4、KNN 中的 K 值如何选取

K值的选择没有经验性的方法,一般只能通过交叉验证来选取合适的k值。

如果K值选择较小,就相当于用较小的邻域中的训练实例进行预测,“学习”的近似误差会减小,只有与输入实例较近的训练实例才会对预测起作用,但估计误差会增大,预测结果会对近邻的实例点非常敏感,如果近邻的实例点恰巧是噪声,预测就会出错。相反如果K值选择较大,就相当于用较大的领域中的训练实例进行预测,近似误差会增大,但估计误差会减小。

对于K近邻法来说,K越大模型越简单,这一点乍一看不容易理解,但其实我们可以考虑极端情况K=NN为样本数),此时任何新样本都会被归入当前样本集中实例最多的类别,从而丢失大量信息。反之,K越小模型越复杂,模型将面临过拟合风险。

5、KNN 中如何快速找到 K 个距离样本最近的点

解决办法是:使用 KD 树来提高 KNN 搜索的效率。

KD 树是一种对K维空间中的样本点进行存储以便对其进行快速检索的树型数据结构。它是二叉树,表示对K维空间的一个划分。构造 KD 树的过程相当于不断的用垂直于坐标轴的超平面将K维空间切分的过程。树的每个结点对应于一个K维的超矩形区域。

用 KD 树进行最近邻搜索的时候,首先在 KD 树中找到包含目标节点的叶结点,以此叶结点为“当前最近点”,然后递归地向上回退,若该结点保存的实例点比当前最近点距离目标更近,则以该点为“当前最近点”。检查该子结点的父节点的另一个子结点对应的区域是否有更近的点,即检查另一子结点对应的区域是否与以目标节点为球心,以目标点到“当前最近点”的距离为半径的超球体相交。若相交,可能在另一个子结点对应区域中存在距离目标更近的点,移动到另一个子结点,继续递归地进行搜索。若不相交,向上回退。当回退到根结点,搜索结束,此时的“当前最近点”即为最近邻点。K 近邻的搜索与之类似。

KD 树搜索的平均计算复杂度为\log NN为训练集大小。KD 树适合样本数远大于特征数的情形。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容