国科大--多媒体分析与理解--18/19/20/22年考试回忆

该课程是开卷考试,但不允许截屏或者保存考试试卷,这里只能根据回忆记录考试内容,大差不差,所有答案仅供参考。2022年的试卷凭回忆记录,18/19/20年试卷来源于网络,但是答案做了进一步的整理。

2018年考试试题

1. 论述什么是多媒体?多媒体分析与理解有哪些应用领域和挑战?

参考答案
(1). 多媒体是使用不同内容形式组合的内容,如文本、音频、图像、动画、视频和交互式内容。或者回答,多媒体是指计算机处理的多种信息载体的统称,包括文本、音频、图形、视频和交互式内容等形式。

(2). 多媒体分析与理解广泛应用于 安防、教育、通讯、娱乐等产业中。具体地,多媒体可以应用在图片检索、内容推荐、视觉监控、视频个性定制、社交媒体、视频网站等领域。

(3). 面对的挑战如下

  • 如何对不同媒体、不同模态的数据进行表示;数据往往是海量的、高维的、非结构化的,具有本身复杂性。
  • 如何理解多媒体数据,并解决语义鸿沟等问题。
  • 如何挖掘多媒体数据之间的相互关联,即协同性与互补性。
  • 如何满足用户多样化的信息需求,处理好用户偏好与个性化。

2. 针对文本、音频与图像数据的特征表示方法,请分别列举 2 种典型特征,并分析其优缺点。

参考答案
(1). 文本

  • 词频(TF)表示法
    优点:用词在文档中的出现频率可表示出一篇文档中的侧重点,便于统计与分析。
    缺点:文中多次出现的介词、系动词等也会被统计出较高的权重。
  • 潜在语义分析法(LSA)
    优点:通过降维,有效解决了一词多义与一义多词的问题。
    缺点:仍未解决文档中间的有序性被破坏的问题。

(2). 音频

  • 过零率
    优点:能侧面反映信号在短时帧内的平均频率。
    缺点:只关注了短时窗内的幅值信息,频域信息缺失。
  • 梅尔频率倒谱系数
    优点:对特征进行了去相关和压缩。
    缺点:对所有频率段信息进行同等处理,不能突出重要信息。

(3). 图像

  • LBP
    优点:一定程度上消除了光照变化的问题,具有旋转不变性,计算速度快。
    缺点:光照不均时对应的LBP算子会发生变化,同时LBP也丢失了方向信息。
  • SIFT
    优点:具有很好的尺度不变性和鲁棒性。
    缺点:实时性不高,具有时特征点较少,对边缘光滑的目标无法准确提取特征点。

3. 卷积神经网络中一个典型层通常包含三种基本操作,请回答每种操作的基本含义或类型,所具备的基本特性或者优缺点。

参考答案
典型层三种基本操作:卷积 ---> 非线性变换 ---> 池化

(1). 卷积操作:

  • 含义:卷积操作又称滤波,卷积核函数又称滤波器;在输入图像上的二维卷积,卷积输出称为 feature map。
  • 特征:通常会在同一个卷积层使用多个不同的卷积核以学习图像的不同特征。当卷积核输入包含多个通道时,可以把卷积核看成是3D的。

(2). 非线性变换:

  • 含义:先通过\phi(x)x空间的点转换成z空间的点,而在z空间上得到一个线性的假设,再恢复到原来的x空间中得到一个二次的假设。
  • 特征:优点是有很好的数学性质,缺点是很容易饱和、输出不是0均值的会对梯度产生影响。

(3). 池化操作:

  • 含义:池化函数使用某一位置的相邻位置的总体统计特征来代替网络在该位置的输出。常用的池化函数有最大池化、平均池化。
  • 特征:当输出作出少量平移时,池化能够帮助输入的表示近似不变,即平移不变。减小参数规模,提高统计效率。在全连接层之前采用全局池化,可以保持全连接层节点数量不变,不受输入图像大小的影响。

4. 请说明图像语义理解的基本研究内容,及其各项内容的含义。请针对其中任一项内容,从中选取 1 个典型算法或模型对其具体实现过程进行详细说明。

参考答案
(1). 图像语义理解旨在研究图像中存在何种物体、何种实例以及目标之间的相互关系, 期望机器能像人一样自动“看懂”外部环境。本质上是学习底层特征与高层语义之间的映射关系。

(2). 图像语义理解基本任包括:

  • 图像分类: 给每幅图像预测一个类别。
  • 图像标注: 给每幅图像预测多个语义标签。
  • 目标检测: 给图像中物体预测一个类别和一个紧致的定位目标。
  • 语义分割: 给每个像素预测一个语义标签。
  • 图像描述: 用自然语言描述图像。

(3). 目标检测的一个经典算法如下:
YOLO,其步骤如下:
  a. 将输入图像假想为一系列网格,并在每个网格中铺设不同大小不同尺寸的 anchor。
  b. 然后将图片送入特征网络进行特征提取。
  c. 对特征图进行解码,包括预测anchor修正量、置信度和类别概率等等。
  d. 对预测的 bounding boxes 进行过滤和 NMS 处理。


5. 详细说明基于 SVD 和 RBM 推荐方法的基本原理, 并比较它们的优劣。

参考答案
(1). SVD
对于所有用户和所有商品打分,可以表示为一个稀疏矩阵R;基于SVD的推荐方法对矩阵R进行分解,并且要求矩阵元素非负,如下
R_{U\times I}=P_{U\times K}Q_{K\times I}然后用R中已知数据训练PQ,使得PQ相乘能最好地拟合已知评分。具体地,预测用户U对商品I的评分为。
\hat{r}_{ui}=p_{u}^{T}q_i则预测误差为e_{ui}=r_{ui}-\hat{r}_{ui},总平方误差为。
\mathrm{SSE}=\sum{e_{ui}^{2}}然后将\mathrm{SSE}作为损失对模型进行训练即可。

(2). RBM
将某一用户对某一商品的评分视作一个 softmax 神经元,softmax 神经元是个长度为 k 的向量,其只有一个分量为1,其余分量为0。而未评分的部分就可以用全0的 softmax 神经元表示。这样某个用户的评分可以用矩阵 V 来表示,在给定可见单元的状态下其激活概率为:
P\left( {{h_j} = 1\left| V \right.} \right) = \frac{1}{{1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}}同理,在给定隐单元状态下 ,可见单元的激活率为:
P\left( {V_i^K = 1\left| h \right.} \right) = \frac{{\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{{\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F {{w_{ij}}{h_j}} } \right)} }}训练阶段,输入用户打分过分的物品,依次计算输入层和隐藏层的值,完成编码过程;然后,根据隐层值计算输入值,完成解码过程。最后根据两者差距对 RBM 的权重进行更新。
预测阶段,将用户u的所有评分作为 RBM 的 softmax 单元的输入,然后计算隐藏层单元的激活概率,再计算可见层单元的概率,取所有概率的期望作为预测值。

(3). 比较:SVD计算过程虽更简单,但由于训练目标单一,容易造成过拟合,而RBM则可以防止梯度爆炸和梯度消失,但求期望的过程会比较复杂,学习效率过慢。


6. 简单描述迭代量化哈希方法(Iterative Quantization,ITQ)的基本思想,并比较 ITQ 方法与局部敏感哈希(LSH)方法的优劣。

参考答案
(1). 迭代量化哈希方法的基本思想为,先对数据集进行PCA降维,然后寻找量化误差最小的旋转矩阵即可得到对应该最优旋转矩阵下的特征向量的二进制编码。

(2). ITQ 方法与局部敏感哈希(LSH)方法的优劣

  • ITQ
    • 优点:相比局部敏感哈希(LSH)方法多了一步操作,即数据降维后使用矩阵旋转优化,可以降低量化误差。
    • 劣势:由于PCA不同维度的方差不平衡,旋转PCA投影数据以尽量减少量化误差时需不断控制旋转角度,即找出最优的旋转矩阵和与之对应的编码,相对麻烦。
  • LSH
    • 优点:通过hash function映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小,因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,计算量下降了很多,改善近似检索的计算表现。
    • 劣势:局部敏感哈希(LSH)方法并不能保证一定能够查找到与query data point最相邻的数据。

7. 运动目标检测的困难有哪些?并简述目前常用方法的优缺点。

参考答案
(1). 困难包括:光照变化、动态背景、伪装目标、相机抖动、相机对焦不准、间断的物体运动、阴影影响等等。

(2). 目前常用方法包括如下:

  • 帧间差方法
    • 优点:算法简单、容易实现、检测速度较快。而且一般相邻两帧的时间间隔比较短,因此对场景的光线变化不是特比敏感。
    • 缺点:对噪声非常敏感且检测出的物体位置不精确,其次帧差法的检测结果与目标运动速度和相邻两帧间隔大小有关。目标运动过快会被分成两个目标,目运动过慢会被视作背景。
  • 背景差分法
    • 优点:算法比较简单;一定程度上克服了环境光线的影响。
    • 缺点:不能用于运动的摄像头;对背景图像实时更新困难。
  • 统计平均法
    • 优点:选择适当的参数能够很好地修正背景图像,从而得到一个较为真实的背景估计图像。
    • 缺点:对于频繁出现的运动目标或者在场景内停留的时间较长,该模型不能够很好的提取运动目标。在复杂场景中会将一些伪目标(如摇摆的树枝等)检测为运动目标。这是由于在场景中树枝的摇摆会引起像素值的变化。
  • 混合高斯模型
    • 优点:能适应背景随时间的缓慢变化,能描述背景中的如显示器屏幕闪烁,树枝晃动等一些周期性扰动等。
    • 缺点:对于缓慢运动的目标不能精确的检测提取,不能够很好的适应阴影、噪声造成的误检或漏检,且不能适应场景的突然变化。
  • 非参数核密度概率估计
    • 优点:可以渐进收敛于任意形状的概率密度,而且对动态的场景还具有一定的适应性。
    • 缺点:运算量非常大,很难实现对视频图像的实时检测。对内存要求比较高.
  • 基于码本的运动目标检测
    • 优点:鲁棒性强,计算效率高,速度快,运算量少,精确度高。
    • 缺点:当训练帧存在较大运动前景时,码本模型的建立会非常不准确,更新参数的调整非常复杂,不能广泛应用于实际情况;由于对于视频每个像素都要建立一个甚至多个码本模型,训练模型比较耗时,若需要背景重构,将大大降低运算速度。
  • ViBe
    • 优点:思想简单,易于实现。(用有限样本近似无限时间窗口)计算量小。运算效率高。(样本少;优化了相似度匹配算法)样本衰减策略。(随机更新策略使得样本生命周期指数衰减,不同于其他方法的先进先出)
    • 缺点:有鬼影、静止目标、阴影前景和运动目标不完整等问题。
  • SubSense
    • 优点:使用了反馈机制,更好适应不同场景,对噪声更为鲁棒。



2019年考试试题

1. 论述什么是多媒体? 多媒体分析与理解有哪些应用领域和挑战?(10 分)

参考答案
(1). 多媒体是使用不同内容形式组合的内容,如文本、音频、图像、动画、视频和交互式内容。或者回答,多媒体是指计算机处理的多种信息载体的统称,包括文本、音频、图形、视频和交互式内容等形式。

(2). 多媒体分析与理解广泛应用于安防、教育、通讯、娱乐等产业中。具体地,多媒体可以应用在图片检索、内容推荐、视觉监控、视频个性定制、社交媒体、视频网站等领域。

(3). 面对的挑战如下

  • 如何对不同媒体、不同模态的数据进行表示;数据往往是海量的、高维的、非结构化的,具有本身复杂性。
  • 如何理解多媒体数据,并解决语义鸿沟等问题。
  • 如何挖掘多媒体数据之间的相互关联,即协同性与互补性。
  • 如何满足用户多样化的信息需求,处理好用户偏好与个性化。

2. 简述特征表示学习的必要性,及其主要解决方法与基本原理。(15 分)

参考答案
(1). 必要性
特征表示学习是指在机器学习中,对原始数据进行处理,提取出有用的特征信息并将其转换为模型可以处理的形式,以便对数据进行分析和建模。 必要性如下:

  • 维数灾难:随着特征维数的增加,特征空间体积呈指数增加,从而导致各方面成本增加;高维空间中样本距离的度量意义减弱,致使模型性能下降;模型参数量会随着数据维度上升而上升;维度过高容易引起模型过拟合。
  • 原始数据通常有很大的冗余和噪声,不能直接用于建模;特征表示学习可以帮助去除冗余信息,提高数据的质量和可用性。

(2). 主要解决方法

  • 特征降维:通过某种数学变换将样本表示由高维空间映射到低维子空间,合适的数据变换依据有:样本最大可分性、距离属性保持等;主要方法:主成分分析、线性判别分析、流形学习等。
  • 特征选择:从给定特征集合中选择出最有效的特征子集,主要方法包括过滤法 Fliter,包裹法 Wrapper,嵌入法 Embedding。
  • 特征融合:数据对象的表征具有天然的多特征特性,实现对数据对象的分析理解需要融合多元化数据非常重要,包括特征层融合、决策层融合。

3. 简述反向误差传播算法的基本原理,并说明该算法在神经网络训练过程中可能遇到的问题及其应对措施。(15 分)

参考答案
(1). 反向传播基本原理:用输出层的误差来估计前一层的误差,然后再用这个误差估计更前一层的误差,依次将误差反向传播下去,从而获得所有其它各层的误差估计;然后使用梯度下降法,结合逐层的误差估计,对网络的所有权重进行调节。

(2). 能遇到的典型问题及相应的解决方法如下:

  • 模型产生过拟合,解决方案包括:
    a. 进行数据增强、扩充训练样本。
    b. 提前在适当的时候提前停止训练。
    c. 采用 Dropout、Droppath 等技术。
    d. 加入正则比约束,如岭回归、Lasso 回归。
  • 梯度消失与梯度爆炸,解决方案包括:
    a. 采用 Relu 等无饱和区激活函数。
    b. 便用 BatchNormalization 进行归一化,避免进入饱和区。
    c. 设置梯度剪切阈值,防止梯度过大。
  • 局部极小值问题,解决方案如下:
    a. 使用合适的参数初始化方式;
    b. 自适应学习率调解方案;
    c. 梯度下降过程中加入动量,或使用其他性能更好的优化器;

4. 简述图像语义理解的基本含义及其面临的主要挑战,选取1个用于图像语义理解任务的典型算法或模型对其具体实现过程进行详细说明。(15 分)

参考答案
(1). 图像语义理解旨在研究图像中存在何种物体、何种实例以及目标之间的相互关系, 期望机器能像人一样自动“看懂”外部环境。本质上是学习底层特征与高层语义之间的映射关系。

(2). 图像语义理解基本任包括:

  • 图像分类: 给每幅图像预测一个类别。
  • 图像标注: 给每幅图像预测多个语义标签。
  • 目标检测: 给图像中物体预测一个类别和一个紧致的定位目标。
  • 语义分割: 给每个像素预测一个语义标签。
  • 图像描述: 用自然语言描述图像。

(3). 目标检测的一个经典算法如下:

  • YOLO,其步骤如下:
    a. 将输入图像假想为一系列网格,并在每个网格中铺设不同大小不同尺寸的 anchor。
    b. 然后将图片送入特征网络进行特征提取。
    c. 对特征图进行解码,包括预测anchor修正量、置信度和类别概率等等。
    d. 对预测的 bounding boxes 进行过滤和 NMS 处理。

(4). 存在问题:

  • 无法解决图片中物体尺度的变化问题。
  • 解决办法:增加检测头、使用FPN网络等。

5. 在NetFlix比赛中,单模型性能最好前两种算法是什么?分别阐述其基本原理及它们之间的优劣。(15分)

参考答案
分别是基于SVD的推荐方法和基于RBM的推荐方法,其基本原理如下。
(1). SVD
对于所有用户和所有商品打分,可以表示为一个稀疏矩阵R;基于SVD的推荐方法对矩阵R进行分解,并且要求矩阵元素非负,如下
R_{U\times I}=P_{U\times K}Q_{K\times I}然后用R中已知数据训练PQ,使得PQ相乘能最好地拟合已知评分。具体地,预测用户U对商品I的评分为。
\hat{r}_{ui}=p_{u}^{T}q_i则预测误差为e_{ui}=r_{ui}-\hat{r}_{ui},总平方误差为。
\mathrm{SSE}=\sum{e_{ui}^{2}}然后将\mathrm{SSE}作为损失对模型进行训练即可。

(2). RBM
将某一用户对某一商品的评分视作一个 softmax 神经元,softmax 神经元是个长度为 k 的向量,其只有一个分量为1,其余分量为0。而未评分的部分就可以用全0的 softmax 神经元表示。这样某个用户的评分可以用矩阵 V 来表示,在给定可见单元的状态下其激活概率为:
P\left( {{h_j} = 1\left| V \right.} \right) = \frac{1}{{1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}}同理,在给定隐单元状态下 ,可见单元的激活率为:
P\left( {V_i^K = 1\left| h \right.} \right) = \frac{{\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{{\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F {{w_{ij}}{h_j}} } \right)} }}训练阶段,输入用户打分过分的物品,依次计算输入层和隐藏层的值,完成编码过程;然后,根据隐层值计算输入值,完成解码过程。最后根据两者差距对 RBM 的权重进行更新。
预测阶段,将用户u的所有评分作为 RBM 的 softmax 单元的输入,然后计算隐藏层单元的激活概率,再计算可见层单元的概率,取所有概率的期望作为预测值。
(3). 比较:SVD计算过程虽更简单,但由于训练目标单一,容易造成过拟合,而RBM则可以防止梯度爆炸和梯度消失,但求期望的过程会比较复杂,学习效率过慢。


6. 简单描述迭代量化哈希方法(Iterative Quantization,ITQ),并比较其与局部敏感哈希(LSH)方法的优劣。(15分)

参考答案
(1). 迭代量化哈希方法的基本思想为,先对数据集进行PCA降维,然后寻找量化误差最小的旋转矩阵即可得到对应该最优旋转矩阵下的特征向量的二进制编码。

(2). ITQ 方法与局部敏感哈希(LSH)方法的优劣

  • ITQ
    优点:相比局部敏感哈希(LSH)方法多了一步操作,即数据降维后使用矩阵旋转优化,可以降低量化误差。
    劣势:由于PCA不同维度的方差不平衡,旋转PCA投影数据以尽量减少量化误差时需不断控制旋转角度,即找出最优的旋转矩阵和与之对应的编码,相对麻烦。
  • LSH
    优点:通过hash function映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小,因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,计算量下降了很多,改善近似检索的计算表现。
    劣势:局部敏感哈希(LSH)方法并不能保证一定能够查找到与query data point最相邻的数据。

7. 阐述 PageRank 的基本原理,并试着阐述还可能有哪些改进的方式。(15 分)

参考答案
(1). Page Rank:
PageRank 基本思想:如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的 PagePank 值越高、排名也越高;如果一个网页的PageRank 值较高,则其所键接的网页也比较重要,PageRank 值也较高。
PageRank基本公式为
r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N}

  • r(p): 网页q的 PageRank值
  • q: p的后向链接
  • w(q): q的前向链接数目
  • N: 网络中网页的总数

(2). 可能的改进

  • 主题敏感的 PageRank(Topic-Sedsitive PageRank)
    在这个算法中,我们需要预先计算离线时页面的重要性的分数;然后,我们为每一个页面计算多种重要性分数,即关于不同的主题来计算这个页面的重要性分数。在查询的时候,把这些重要性分数与根据被查询的主题的重要性分数综合在一起,就形成一个复合PageRank 分数。采用这种方法能形成更加精确的排序值,而不是原始普通的排序值。
  • 二次方程推断法(Quadratic Extra polation)
    这是一个可以加快 PageRank 的运算速度的方法。它能通过周期性的削减当前的矩阵乘幂迭代的非主要特征向量的方法,大大加快其收敛速度。使用这种方法计算 PageRank 值时,当计算一个包含 8000 万个节点的网络图时,与采用原来的 PageRank 方法相比,计算速度可以提高 20%-300%。
  • 分块矩阵排序算法(BlockRank Algorithm)
    该算法是 PageRank 算法的另一个加速算法,它首先把网络根据领域划分成不同的区域,为每个区域计算它们的 局部 PageRank 值;估计它们的相对的重要性(每个区域的BlockRank值);用这个区域的Block-Rank.值来给每个区域 的Block-Rank赋予一定的权重。然后再把这些加权的局部的 PageRank 值近似地看作全局的 PageRank 向量,把这个向量 作为标准的 PageRank 算法的开始向量。这种方法可以减少计算的迭代次数,可以把更多的时间用于收敛速度慢的区域 的计算,提高了局部 PageRank 计算的有效性。BlockRank 算法可以采取并行或分布的形式来进行计算,节约运算的时间。 此外,局部的 PageRank 计算结果在以后的计算中可以被再利用。



2020年考试试题

1. 论述什么是多媒体?多媒体分析与理解有哪些应用领域和挑战?

参考答案
(1). 多媒体是使用不同内容形式组合的内容,如文本、音频、图像、动画、视频和交互式内容。或者回答,多媒体是指计算机处理的多种信息载体的统称,包括文本、音频、图形、视频和交互式内容等形式。

(2). 多媒体分析与理解广泛应用于安防、教育、通讯、娱乐等产业中。具体地,多媒体可以应用在图片检索、内容推荐、视觉监控、视频个性定制、社交媒体、视频网站等领域。

(3). 面对的挑战如下

  • 如何对不同媒体、不同模态的数据进行表示;数据往往是海量的、高维的、非结构化的,具有本身复杂性。
  • 如何理解多媒体数据,并解决语义鸿沟等问题。
  • 如何挖掘多媒体数据之间的相互关联,即协同性与互补性。
  • 如何满足用户多样化的信息需求,处理好用户偏好与个性化。

2. 多媒体内容描述有哪几类代表性的特征表示学习方法,对比说明其异同点,并每类列举2-3种典型算法。

参考答案
(1). 特征降维:通过某种数学变换将样本表示由高维空间映射到低维子空间,合适的数据变换依据有:样本最大可分性、距离属性保持等;主要方法:主成分分析、线性判别分析、流形学习等。

  • PCA:通过主成分分析方法,将高维数据映射到低维空间,并期望在所投影维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。
  • LDA:主要针对两类问题,将数据有原始维度投影到一维空间,可直接用于分类。降维投影后的样本点,同类样本之间距离尽可能近,异类样本之间距离尽可能远。
  • 流形学习(LLE、Isomap):从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。

(2). 特征选择:从给定特征集合中选择出最有效的特征子集,主要方法包括过滤法 Fliter,包裹法 Wrapper,嵌入法 Embedding。

  • 过滤法:通过分析特征子集有效性来衡量其好坏,一般用作预处理,与模型学习无关。
  • 包裹法:实质上是一个分类器,用选取的特征子集对样本集进行分类,模型性能作为衡量特征子集好坏的标准。
  • 嵌入法:在模型学习的同时,学习出对提高模型性能最好的特征子集,如 L1/L2 正则化。

(3). 特征融合:数据对象的表征具有天然的多特征特性,实现对数据对象的分析理解需要融合多元化数据非常重要,包括特征层融合、决策层融合。

  • 前向融合:特征层融合,形成融合特征表示,然后进行模型的学习。
  • 后向融合:决策层融合,不同特征分别进行模型学习后融合,得到最后的融合分类结果。

3. 简述语言模型的基本概念与应用领域,并给出3种典型的语言模型的基本解决思路。

参考答案
(1). 语言模型的基本概念
语言模型用于表示语言中词语序列出现的概率。它通常用来预测一个语言序列中下一个词语的可能性。自然语言中标记(词、字符、字节)序列的概率分布,记为 ,语言模型用于衡量词序列符合自然语言表达的程度。 语言模型在自然语言处理领域中有广泛应用,包括语音识别、机器翻译、拼写检查和信息检索等领域。例如,在语音识别中,可以利用语言模型来评估识别出的文本序列是否合理,以提高识别准确率。

(2). 典型的语言模型

  • n-gram
  • Word2Vec
  • ELMO
  • GPT
  • BERT
    原理抄PPT就可以。

4. 在NetFlix比赛中,单模型性能最好前两种算法是什么?分别阐述其基本原理及它们之间的优劣。

参考答案
分别是基于SVD的推荐方法和基于RBM的推荐方法,其基本原理如下。
(1). SVD
对于所有用户和所有商品打分,可以表示为一个稀疏矩阵R;基于SVD的推荐方法对矩阵R进行分解,并且要求矩阵元素非负,如下
R_{U\times I}=P_{U\times K}Q_{K\times I}然后用R中已知数据训练PQ,使得PQ相乘能最好地拟合已知评分。具体地,预测用户U对商品I的评分为。
\hat{r}_{ui}=p_{u}^{T}q_i则预测误差为e_{ui}=r_{ui}-\hat{r}_{ui},总平方误差为。
\mathrm{SSE}=\sum{e_{ui}^{2}}然后将\mathrm{SSE}作为损失对模型进行训练即可。

(2). RBM
将某一用户对某一商品的评分视作一个 softmax 神经元,softmax 神经元是个长度为 k 的向量,其只有一个分量为1,其余分量为0。而未评分的部分就可以用全0的 softmax 神经元表示。这样某个用户的评分可以用矩阵 V 来表示,在给定可见单元的状态下其激活概率为:
P\left( {{h_j} = 1\left| V \right.} \right) = \frac{1}{{1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}}同理,在给定隐单元状态下 ,可见单元的激活率为:
P\left( {V_i^K = 1\left| h \right.} \right) = \frac{{\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{{\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F {{w_{ij}}{h_j}} } \right)} }}训练阶段,输入用户打分过分的物品,依次计算输入层和隐藏层的值,完成编码过程;然后,根据隐层值计算输入值,完成解码过程。最后根据两者差距对 RBM 的权重进行更新。
预测阶段,将用户u的所有评分作为 RBM 的 softmax 单元的输入,然后计算隐藏层单元的激活概率,再计算可见层单元的概率,取所有概率的期望作为预测值。
(3). 比较:SVD计算过程虽更简单,但由于训练目标单一,容易造成过拟合,而RBM则可以防止梯度爆炸和梯度消失,但求期望的过程会比较复杂,学习效率过慢。


5. 简单描述迭代量化哈希方法(Iterative Quantization, ITQ) 的基本思想,并比较ITQ方法与局部敏感哈希(LSH) 方法的优劣。

参考答案
(1). 迭代量化哈希方法的基本思想为,先对数据集进行PCA降维,然后寻找量化误差最小的旋转矩阵即可得到对应该最优旋转矩阵下的特征向量的二进制编码。

(2). ITQ 方法与局部敏感哈希(LSH)方法的优劣

  • ITQ
    优点:相比局部敏感哈希(LSH)方法多了一步操作,即数据降维后使用矩阵旋转优化,可以降低量化误差。
    劣势:由于PCA不同维度的方差不平衡,旋转PCA投影数据以尽量减少量化误差时需不断控制旋转角度,即找出最优的旋转矩阵和与之对应的编码,相对麻烦。
  • LSH
    优点:通过hash function映射变换操作,将原始数据集合分成了多个子集合,而每个子集合中的数据间是相邻的且该子集合中的元素个数较小,因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题,计算量下降了很多,改善近似检索的计算表现。
    劣势:局部敏感哈希(LSH)方法并不能保证一定能够查找到与query data point最相邻的数据。

6.阐述PageRank的基本原理,并试着阐述还可能有哪些改进的方式。

参考答案
(1). Page Rank:
PageRank 基本思想:如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的 PagePank 值越高、排名也越高;如果一个网页的PageRank 值较高,则其所键接的网页也比较重要,PageRank 值也较高。
PageRank基本公式为
r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N}

  • r(p): 网页q的 PageRank值
  • q: p的后向链接
  • w(q): q的前向链接数目
  • N: 网络中网页的总数

(2). 可能的改进

  • 主题敏感的 PageRank(Topic-Sedsitive PageRank)
    在这个算法中,我们需要预先计算离线时页面的重要性的分数;然后,我们为每一个页面计算多种重要性分数,即关于不同的主题来计算这个页面的重要性分数。在查询的时候,把这些重要性分数与根据被查询的主题的重要性分数综合在一起,就形成一个复合PageRank 分数。采用这种方法能形成更加精确的排序值,而不是原始普通的排序值。
  • 二次方程推断法(Quadratic Extra polation)
    这是一个可以加快 PageRank 的运算速度的方法。它能通过周期性的削减当前的矩阵乘幂迭代的非主要特征向量的方法,大大加快其收敛速度。使用这种方法计算 PageRank 值时,当计算一个包含 8000 万个节点的网络图时,与采用原来的 PageRank 方法相比,计算速度可以提高 20%-300%。
  • 分块矩阵排序算法(BlockRank Algorithm)
    该算法是 PageRank 算法的另一个加速算法,它首先把网络根据领域划分成不同的区域,为每个区域计算它们的 局部 PageRank 值;估计它们的相对的重要性(每个区域的BlockRank值);用这个区域的Block-Rank.值来给每个区域 的Block-Rank赋予一定的权重。然后再把这些加权的局部的 PageRank 值近似地看作全局的 PageRank 向量,把这个向量 作为标准的 PageRank 算法的开始向量。这种方法可以减少计算的迭代次数,可以把更多的时间用于收敛速度慢的区域 的计算,提高了局部 PageRank 计算的有效性。BlockRank 算法可以采取并行或分布的形式来进行计算,节约运算的时间。 此外,局部的 PageRank 计算结果在以后的计算中可以被再利用。



2022年考试试题

1. 论述什么是多媒体?存在哪些应用和挑战?

参考答案
(1). 多媒体是使用不同内容形式组合的内容,如文本、音频、图像、动画、视频和交互式内容。或者回答,多媒体是指计算机处理的多种信息载体的统称,包括文本、音频、图形、视频和交互式内容等形式。

(2). 多媒体分析与理解广泛应用任安防、教育、通讯、娱乐等产业中。具体地,多媒体可以应用在图片检索、内容推荐、视觉监控、视频个性定制、社交媒体、视频网站等领域。

(3). 面对的挑战如下

  • 如何对不同媒体、不同模态的数据进行表示;数据往往是海量的、高维的、非结构化的,具有本身复杂性。
  • 如何理解多媒体数据,并解决语义鸿沟等问题。
  • 如何挖掘多媒体数据之间的相互关联,即协同性与互补性。
  • 如何满足用户多样化的信息需求,处理好用户偏好与个性化。

2. 阐述反向传播的基本原理和求解思路,分析BP算法中的两种以上的典型问题,以及相应的解决方法。

参考答案
(1). 反向传播基本原理:用输出层的误差来估计前一层的误差,然后再用这个误差估计更前一层的误差,依次将误差反向传播下去,从而获得所有其它各层的误差估计;然后使用梯度下降法,结合逐层的误差估计,对网络的所有权重进行调节。

(2). 能遇到的典型问题及相应的解决方法如下:

  • 模型产生过拟合,解决方案包括:
    a. 进行数据增强、扩充训练样本。
    b. 提前在适当的时候提前停止训练。
    c. 采用 Dropout、Droppath 等技术。
    d. 加入正则比约束,如岭回归、Lasso 回归。
  • 梯度消失与梯度爆炸,解决方案包括:
    a. 采用 Relu 等无饱和区激活函数。
    b. 便用 BatchNormalization 进行归一化,避免进入饱和区。
    c. 设置梯度剪切阈值,防止梯度过大。

3. 简述预训练模型的核心思想与应用场景,给出3种典型预训练任务(自监督学习任务)的基本思路。

参考答案
(1). 预训练模型旨在通过提前在大规摸数据上进行训练,为下游任务提供更好的特征表达和基础模型,然后将其用作初始化,在较小的有监督学习数据集上进行微调,以便用于特定的任务。近年来,随着自监督学习技术的不断发展,大模型能够通过自监督学习的相关技术在海量、大规模、无标注数据上进行训练,充分地学习数据中蕴含的通用知识,为下游任务提供通用的特征表达。

(2). 典型应用场景举例:

  • 语言预训练摸型。如 GPT、BERT、ERINE 等语言模型,极大地提升了 NLP 中相关下游件务的性能。
  • 视觉预训练模型。如在 Imagenet 1K、ImageNee21K 上预训练的视觉模型;或者是使用 Moco、SimCLR、MaskFeat、MAE、BeiT 等方法训练的视觉模型,均提升了 CV 中相关下游任务的性能。
  • 多模态预训练模型。如 CLIP、ViL-BERT,Oscar,ViLT 等模型均提升了多模态下游依务的性能。

(3). 一些自监督任务的基本思路:

  • 语言掩码学习, MLM。通过预测输入语句中被mask的单词,学习语句间的上下文语义关系。
  • 上下文预测, NSP。判断两个子句是否在原文中相邻。
  • 对比学习。将相同类别或相同pair的数据拉近,不同类、不同pair数据拉远。
  • Image-Text Matching。判断当前输入的图像-文本对是否匹配。

4. 简述图像语义理解领域的主要研究内容,选择某类语义理解任务的典型方法,简述其基本过程,并分析其问题以及相关应对解决方法。

参考答案
(1). 图像语义理解旨在研究图像中存在何种物体、何种实例以及目标之间的相互关系, 期望机器能像人一样自动“看懂”外部环境。本质上是学习底层特征与高层语义之间的映射关系。

(2). 图像语义理解基本任包括:

  • 图像分类: 给每幅图像预测一个类别。
  • 图像标注: 给每幅图像预测多个语义标签。
  • 目标检测: 给图像中物体预测一个类别和一个紧致的定位目标。
  • 语义分割: 给每个像素预测一个语义标签。
  • 图像描述: 用自然语言描述图像。

(3). 目标检测的一个经典算法如下:

  • YOLO,其步骤如下:
    a. 将输入图像假想为一系列网格,并在每个网格中铺设不同大小不同尺寸的 anchor。
    b. 然后将图片送入特征网络进行特征提取。
    c. 对特征图进行解码,包括预测anchor修正量、置信度和类别概率等等。
    d. 对预测的 bounding boxes 进行过滤和 NMS 处理。

(4). 存在问题:

  • 无法解决图片中物体尺度的变化问题。
  • 解决办法:增加检测头、使用FPN网络等。

5. 简述SVD和SVD++协同推荐方法基本原理,列出基本公式;比较它们之间的优劣,讨论相关改进。(15分)

参考答案
(1). SVD
对于所有用户和所有商品打分,可以表示为一个稀疏矩阵R。基于SVD的推荐方法对矩阵R进行分解,并且要求矩阵元素非负,如下
R_{U\times I}=P_{U\times K}Q_{K\times I}然后用R中已知数据训练PQ,使得PQ相乘能最好地拟合已知评分。具体地,预测用户U对商品I的评分为:
\hat{r}_{ui}=p_{u}^{T}q_i则预测误差为e_{ui}=r_{ui}-\hat{r}_{ui},总平方误差为:
\mathrm{SSE}=\sum{e_{ui}^{2}}然后将SSE作为损失对模型进行训练即可。

(2). SVD++
SVD++ 是一种改进的 SVD 方法,主要在用户和物品的隐式交互信息方面(如用户的浏览历史)来增强模型的预测能力,可以被表示为如下公式:

\hat{r}_{u,i} = \mu + b_u + b_i + q_i^T(p_u + |I_u|^{-\frac{1}{2}}\sum{j \in I_u}y_j)其中 I_u 表示用户 u 所有交互过的物品的集合。SVD++ 与 SVD 的主要区别在于 SVD++ 引入了额外的用户和物品隐式交互信息,这使得 SVD++ 更具泛化能力,可以在没有评分信息的情况下进行推荐。

(3). 优劣

  • SVD 推荐算法较为筒洁,计算效率高,但训练目标单一,容易造成过拟合;且不考虑用户和物品之间的隐式交互信息,预测时不够准确。
  • SVD++ 更加灵活,考虑了用户和物品之间的隐式交互信息,效果更好,使得模型的泛化能力更强,可以在没有评分信息的情况下进行推荐。但计算更加复杂、学习效率较慢。

(4). 改进

  • 在 SVD 推荐方法中偏置项和正则项,提升模型的灵活性并防止过拟合。

6. 简述 PageRank 和 HITS 的基本原理,比较它们的优缺点,并试着阐述还可能有哪些改进的方式。(15分)

参考答案
(1). Page Rank:
PageRank 基本思想:如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的 PagePank 值越高、排名也越高;如果一个网页的PageRank 值较高,则其所键接的网页也比较重要,PageRank 值也较高。
PageRank基本公式为
r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N}
r(p): 网页q的 PageRank值
q: p的后向链接
w(q): q的前向链接数目
N: 网络中网页的总数

(2). HITS: Hyperlink Induced Topic Search
其基本原理为:一个好的 “Authority” 页面会被很多好的 “Hub” 页面指向;一个好的“Hub”页面会指向很多好的 “Authority” 页面。

(3). 优劣

  • PageRanK:
    优: 与查询无关的静态算法、具有全局性,不宜作弊。
    缺: 与主题无关,旧网页比新网页排名高。
  • HITS:
    优: 在线、具有局部性,在 NLP、社交网络中取得很好效果。
    缺: 计算复杂,易作弊。

(4). 改进
针对 PageRank 主题无关这一缺点,设置主题敏感的 PageRank 算法;预先计算离线时页面的重要性分数;然后,为一个页面计算多种重要性分数,即关于不同主题来计算这个页面的重要性分数。


7. 请简述三种以上可防止深度学习模型训练过程中数据泄露的方法,介绍方法的基本原理,并对其进行分析和比较。

参考答案

  • 基于梯度压缩的方法
    采用分层剪枝技术,去掉绝对值较小的参数梯度,减少梯度中的冗余信息;或采用量化技术对梯度进行量化,从而增加攻击难度。
  • 基于差分隐私的方法
    即在本地训练过程中使用DPSGD。
  • 基于数据变换的方法
    通过数据增强的方法对原数据集进行扩充,从而影响模型的梯度,如AutoML;从而保护数据隐私并且不影响模型的收敛。
  • 基于密码学的方法
    如基于同态加密的方法,对梯度和数据隐私进行加密。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,911评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,014评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,129评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,283评论 1 264
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,159评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,161评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,565评论 3 382
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,251评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,531评论 1 292
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,619评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,383评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,255评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,624评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,916评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,199评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,553评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,756评论 2 335

推荐阅读更多精彩内容