数据挖掘 - 文集

数据挖掘

18篇文章 · 9439字 · 5人关注

面试Orz（数据挖掘向）
前面干货，后面废话。 1. 百度 2个有序数组取中位数https://leetcode.com/problems/median-of-two-s...

0.7 5473 3 51 3
16.算法选择
简单看一下（点击看大图）四大类解决方案分类回归聚类降维预测结果是一个类别，且现在有已标记数据的情况对于大量数据（10w+），在线学...

0.8 4738 0 50

15.评价指标
1. 分类问题评价指标 1-1. 精确率与召回率精确率（Precision）指的是模型判为正的所有样本中有多少是真正的正样本；召回率（Reca...

0.9 13709 2 52
14.决策树碎碎念
属性选择属性的感觉就是最大限度的增加样本的纯度，并且不要产生产生样本数少的分枝。属性选择标准有信息增益（Information Gain）和...

1.0 5286 0 51
11.线性SVM和软间隔SVM
不是每个样本点都有松弛因子，只有离群的样本才有惩罚因子首先随机生成一些数据选用线性SVM分类器并进行数据用支持点和w绘出分类超平面研究参...

0.7 6754 0 50
12.L1范数，L2范数
存在意义监督学习的2个主题就是最小化误差：模型拟合数据规则化参数：防止过拟合为了使模型简单，所以需要规则化在保持模型单的情况下，使误差最...

0.8 9078 0 52
10.SVM推导与证明
问题描述（以二维为例）最后得到的式子就是线性可分SVM最后的优化公式

1.1 8778 4 52 1

9.决策树
决策树应该有的样子从根节点开始，以信息增益最大的特征作为节点进行数据集分割，重复这个过程直到子节点都是一个类别的。过多的子节点会导致过拟合现象...

0.7 4659 0 49 1
8.Kernel SVM
用于分类非线性分类问题将线性不可分的数据通过一个映射函数，映射到一个高维的空间，使数据线性可分上图的映射就是将二维数据集映射到了一个三维的空...

1.5 4680 0 49