其它
1. Batch Normalization
- 机器学习领域有个很重要的假设:IID独立同分布假设【数据的独立同分布(Independent Identically Distributed)】
- 假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。如果训练数据与测试数据的分布不同,那么网络的泛化能力就会大大降低。另一方面,如果每批训练数据的分布各不相同,网络就要在每次迭代时都去学习适应不同的分布,那么网络的训练速度就会大大降低。
- BN的作用就是在深度神经网络训练过程中使得每一层神经网络的输入均保持相同分布。
1.1. 公式
1.2. 作用
- 加速收敛
- 控制过拟合,可以少用或不用Dropout和正则
- 降低网络对初始化权重的敏感程度
- 允许使用较大的学习率
2. LSTM公式
遗忘门
输入门
输出门
3. nDCG
- : 第i个结果的得分, IDCG: 理想情况下最大的DCG值, |REL|: 按照最优(得分从大到小)的方式对结果排序
4. BM25
一般的
dl: 文档d的长度, avgdl: 所有文档的平均长度, : 文档中的词频, : query中的词频
5. FM和FFM
5.1. FM
- 公式
w是对称矩阵,
5.2. FFM
- FM是对每一个新特征学习一个长度为的隐式向量,共有个参数
- FFM是对每一个新特征学习个长度为的隐式向量,共有个参数
- FFM有个FM中的参数矩阵,针对每个field都有一个,FM是FFM的的特例
- 公式
6. PCA和LDA
6.1. PCA
- PCA的算法步骤,设有 条 维数据。
- 将原始数据按列组成 行 列矩阵
- 将的每一行(代表一个属性字段)进行零均值化
- 求出协方差矩阵 (即, 为没有进行零均值化的数据)
- 求出协方差矩阵的特征值及对应的特征向量
- 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 行组成矩阵
- 即为降维到维后的数据
6.2. LDA
6.3. PCA与LDA对比
- 相同点
- 两者均可以对数据进行降维。
- 两者在降维时均使用了矩阵特征分解的思想。
- 两者都假设数据符合高斯分布。
- 不同点
- LDA是有监督的降维方法,而PCA是无监督的降维方法
- LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
- LDA除了可以用于降维,还可以用于分类。
- LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。
7. 偏差方差分解
- 偏差:度量了模型的期望预测和真实结果的偏离程度,刻画了模型本身的拟合能力。
- 方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
- 噪声:表达了当前任务上任何模型所能达到的期望泛化误差的下界,刻画了学习问题本身的难度。