18篇文章 · 9439字 · 5人关注
前面干货,后面废话。 1. 百度 2个有序数组取中位数https://leetcode.com/problems/median-of-two-s...
简单看一下(点击看大图)四大类解决方案 分类 回归 聚类 降维 预测结果是一个类别,且现在有已标记数据的情况 对于大量数据 (10w+),在线学...
1. 分类问题评价指标 1-1. 精确率与召回率 精确率(Precision)指的是模型判为正的所有样本中有多少是真正的正样本;召回率(Reca...
属性选择 属性的感觉就是最大限度的增加样本的纯度,并且不要产生产生样本数少的分枝。 属性选择标准有信息增益(Information Gain)和...
不是每个样本点都有松弛因子,只有离群的样本才有惩罚因子 首先随机生成一些数据 选用线性SVM分类器并进行数据 用支持点和w绘出分类超平面 研究参...
存在意义 监督学习的2个主题就是 最小化误差:模型拟合数据 规则化参数:防止过拟合 为了使模型简单,所以需要规则化在保持模型单的情况下,使误差最...
问题描述(以二维为例) 最后得到的式子就是线性可分SVM最后的优化公式
决策树应该有的样子 从根节点开始,以信息增益最大的特征作为节点进行数据集分割,重复这个过程直到子节点都是一个类别的。过多的子节点会导致过拟合现象...
用于分类非线性分类问题 将线性不可分的数据通过一个映射函数,映射到一个高维的空间,使数据线性可分 上图的映射就是将二维数据集映射到了一个三维的空...
文集作者