机器学习面试其它相关知识点

其它

1. Batch Normalization

  • 机器学习领域有个很重要的假设:IID独立同分布假设【数据的独立同分布(Independent Identically Distributed)】
  • 假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。如果训练数据与测试数据的分布不同,那么网络的泛化能力就会大大降低。另一方面,如果每批训练数据的分布各不相同,网络就要在每次迭代时都去学习适应不同的分布,那么网络的训练速度就会大大降低。
  • BN的作用就是在深度神经网络训练过程中使得每一层神经网络的输入均保持相同分布。

1.1. 公式

\mu = \frac{1}{m} \sum_{i=1}^{m}x_i
\sigma ^ 2 = \frac{1}{m} \sum_{i=1}^{m}({x_i-\mu})^2
\widehat{x_i} = \frac{x_i - \mu}{\sqrt{\sigma ^2 + \varepsilon}}
y_i=\gamma \widehat{x_i} + \beta

1.2. 作用

  • 加速收敛
  • 控制过拟合,可以少用或不用Dropout和正则
  • 降低网络对初始化权重的敏感程度
  • 允许使用较大的学习率

2. LSTM公式

  • 遗忘门
    f_t = \sigma (W_f \cdot [h_{t-1}, x_t] + b_f)

  • 输入门
    i_t = \sigma (W_i \cdot [h_{t-1}, x_t] + b_i)
    \widetilde{c_t} = tanh(W_c \cdot [h_{t-1}, x_t] + b_c)
    c_t = f_t * c_{t-1} + i_t * \widetilde{c_t}

  • 输出门
    o_t = \sigma (W_o \cdot [h_{t-1}, x_t] + b_o)
    h_t = o_t * tanh(c_t)

3. nDCG

DCG_p = \sum_{i=1}^{p} {\frac{rel_i}{\log_2(i+1)}} \ or \ \sum_{i=1}^{p} {\frac{2^{rel_i}-1}{\log_2(i+1)}}
nDCG_p = \frac{DCG_p}{IDCG_p}
IDCG_P=\sum_{i=1}^{|REL|}{\frac{2^{rel_i}-1}{\log_2(i+1)}}

  • rel_i: 第i个结果的得分, IDCG: 理想情况下最大的DCG值, |REL|: 按照最优(得分从大到小)的方式对结果排序

4. BM25

Score(Q, d) = \sum_{i=1}^{n}{w_i * R(q_i, d)}
w_I=IDF(q_i) = \log \frac{N +0.5}{n(q_i)+0.5}
R(q_i, d) = \frac{f_i * (k_1 +1)}{f_i + K} * \frac{qf_i * (k_2 + 1)}{qf_i + k_2}

  • 一般的
    k_1=1, k_2=1, b = 0.75, qf_i=1
    R(q_i, d) = \frac{f_i * (k_1 +1)}{f_i + K}
    K = k_1 * (1-b + b * \frac{dl}{avgdl})

  • dl: 文档d的长度, avgdl: 所有文档的平均长度, f_i: 文档中q_i的词频, qf_i: query中q_i的词频

5. FM和FFM

5.1. FM

  • 公式
    y(x) = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n}w_{ij} x_i x_j
    w是对称矩阵,w=V^TV
    y(x) = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n}<\vec {v_i}, \vec {v_j}> x_i x_j

5.2. FFM

  • FM是对每一个新特征学习一个长度为k的隐式向量\vec{v_i},共有nk个参数
  • FFM是对每一个新特征学习f个长度为k的隐式向量\vec {v_{i,f_j}},共有nkf个参数
  • FFM有f个FM中的参数矩阵,针对每个field都有一个,FM是FFM的f=1的特例
  • 公式
    y(x) = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n}<\vec {v_{i, f_j}}, \vec {v_{j, f_i}}> x_i x_j

6. PCA和LDA

6.1. PCA

  • PCA的算法步骤,设有 nm 维数据。
    1. 将原始数据按列组成 mn 列矩阵 X
    2. X的每一行(代表一个属性字段)进行零均值化
    3. 求出协方差矩阵 C = \frac {1}{m} XX^T(即C= \frac{1}{N}\sum_{n=1}^{N}(x_n-\overline x)(x_n-\overline x)^T, x_n为没有进行零均值化的数据)
    4. 求出协方差矩阵的特征值及对应的特征向量
    5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P
    6. Y=PX 即为降维到k维后的数据

6.2. LDA

相关问题

6.3. PCA与LDA对比

  • 相同点
    1. 两者均可以对数据进行降维。
    2. 两者在降维时均使用了矩阵特征分解的思想。
    3. 两者都假设数据符合高斯分布。
  • 不同点
    1. LDA是有监督的降维方法,而PCA是无监督的降维方法
    2. LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
    3. LDA除了可以用于降维,还可以用于分类。
    4. LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

7. 偏差方差分解

expected \ loss = bias^2 + variance + noise

  • 偏差:度量了模型的期望预测和真实结果的偏离程度,刻画了模型本身的拟合能力。
  • 方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
  • 噪声:表达了当前任务上任何模型所能达到的期望泛化误差的下界,刻画了学习问题本身的难度。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容