程序猿爱打DOTA - 简书

发简信

程序猿爱打DOTA

1
关注
4
粉丝
44
文章
16785

字数
14

收获喜欢
1

总资产

IP属地：江苏

程序猿爱打DOTA

结构风险最小化与经验风险最小化
结构风险最小化：在经验风险最小化的基础上，尽可能采用简单的模型，以此提高泛化预测精度。经验风险最小化：根据已有样本，训练模型使得预测结果，尽可能接近现有样本，可能导致模...

1817 0 1
程序猿爱打DOTA

我是思聪
写了 33654 字，被 2979 人关注，获得了 697 个喜欢

《爬虫实战：从数据到产品》作者，国内首个机票价格历史及预测小程序“爱飞狗旅行”作者，极客、架构师、大数据玩家。<br>请关注公众号：爱飞狗

程序猿爱打DOTA

度量学习
基本动机：尝试学习出一个合适的距离度量马氏距离：表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：...

1257 0 1
程序猿爱打DOTA

流形学习
是一类借鉴了拓扑流形概念的降维方法。流形是在局部与欧式空间同胚的空间，它在局部具有欧式空间的性质，能用欧氏距离来进行距离计算。若低维流形嵌入到高维空间中，则数据样本在高维空...

782 0 1
程序猿爱打DOTA

低维嵌入
密采样：任意测试样本X在附近任意小的ε距离范围内总能找到一个训练样本低维嵌入：人们观测或者收集到的数据样本虽是高维的，但与学习任务密切相关的仅是某个低维分布

2923 0 1
程序猿爱打DOTA

数字证书原理
详见http://www.cnblogs.com/JeffreySun/archive/2010/06/24/1627247.html，讲解的非常详细

237 0 1
程序猿爱打DOTA

层次聚类
试图在不同层次对数据集进行划分，从而形成树形的聚类结构。自顶向下或自底向上均可 AGNES :自底向上初始所以样本为一个簇，每一步合并距离最近的簇进行合并关键在于如何计算...

592 0 1

程序猿爱打DOTA

密度聚类
假设聚类结构能通过样本分布的紧密程度确定。 DBSCAN 基于一组“领域”参数来刻画样本分布的紧密程度 ε-领域：对xj属于D，其领域包含样本集D中与xj 的距离不大于ε的样...

472 0 1
程序猿爱打DOTA

学习向量量化
LVQ 试图找到一组原型向量来刻画聚类结构，但与一般聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程利用样本的这些监督信息来辅助聚类。与K-means类似，每轮迭...

2378 0 1
程序猿爱打DOTA

SVR
SVM的回归形式，假设我们能容忍f(x)与y之间最多有ε的偏差相当于以f(x)为中心，构建了一个宽度为2ε的间隔带

643 0 1
程序猿爱打DOTA

深度网络
增加隐层数量比增加隐层神经元个数更有效，因为增加了激活函数嵌套的层数。多隐层网络难以用BP算法训练，因为误差会“发散” -梯度消失，导致不能收敛无监督逐层训练(unsup...

223 0 0
程序猿爱打DOTA

其他神经网络类型
RBF径向基网络：是一种单隐层前馈神经网络，使用径向基函数作为激活函数，输出层是对隐层神经元输出的线性组合 Park证明，具有足够多隐层神经元的RBF网络能以任意精度逼近连...

365 0 0

程序猿爱打DOTA

基础理论
“一种难以解释的黑箱模型” 一般使用Sigmoid(x) = 1/(1+ e^-z)作为神经元激活函数感知机由两层神经元组成，输入层接收外界输入信号后传递给输出层，输出层是...

208 0 0
程序猿爱打DOTA

多分类问题
“一对一”，OvO：产生N（N-1）个分类器，测试时，新样本提供给所有分类器，取结果中预测最多的类别作为最终结果 “一对多”，OvR: 产生N个分类器，在预测时，若只有一...

1357 1 0
程序猿爱打DOTA

线性判别分析
思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异类样例的投影点尽可能远离。设Xi,μi, Σi分别表示第i类示例的集合、均值向量、协方...

772 0 0
程序猿爱打DOTA

广义线性回归
y = g(wTx+b) 如对数线性回归log-linear regression 形式: lny = wTx +b 试图让e^(wTx+b) 接近y,形式上虽仍是线性回归，...

375 0 0
程序猿爱打DOTA

降维
特征提取本质是降维的一种特殊情况 TF-IDF 词频-逆向词频，实际上不算 feature selection ，因为它（通常）并没有丢弃低权值的维度，并且处理过后的特征的...

512 0 0

程序猿爱打DOTA

偏差与方差
泛化误差可以分解为偏差、方差和噪声之和对于测试样本 x,另Yd为 x在数据集中的标记，y为x的真实标记， f(x;D)为训练集D上学得模型f在x上的预测输出， f(x) =...

629 0 0
程序猿爱打DOTA

比较检验
机器学习中性能比较很复杂，没有想象的那么简单： 1.希望比较的是泛化性能，但得到的是测试性能 2.测试集上的性能跟测试集的选择很有大关系 3.机器学习有一定的随机性假设检验...

604 0 0
程序猿爱打DOTA

性能度量
分类中使用错误率和精度查准率（precision）,查全率（recall） P = TP/(TP+FP) R= TP/(TP+FN) F1 = 2*P*R/(P+R) Fi...

394 0 0

个人介绍

上海交通大学研究生