BASE
- 将语义信息尽可能平均化,突出语音中说话人的个人特征,将不同人的特征差异凸显出来.
- 模型训练的过程就是建模的过程,识别的过程就是模式匹配的过程.
-
模型训练
模型训练的过程就是建模的过程,识别的过程就是模式匹配的过程.
根据系统的建模算法,训练得到一个人的模型.
- 识别系统
特征提取
base
- 特征能够对原始信号进行最大程度的表征.
- 减少冗余信息,减少计算量
- 外界有干扰的时候能够有良好的鲁棒性
- 一阶差分 二阶差分
语音信号两帧之前存在较大的相关性,需要在静态的倒谱中加入动态信息来强化特征表示 - 倒谱均值减和倒谱方差归一化处理,消除传输信道的影响和信道的偏移误差
- 耳蜗
耳蜗相当于是一个滤波器组,对于声音频率的感应是非线性的,具有良好的抗噪能力和识别性能.MFCC参数就是模仿人类的听觉特性.
MFCC
- 语音信号模数转化,预加重,分帧,加窗经过FFT得到频域信号
- 频域信号通过D个Mel滤波器组,得到D维的Mel频谱,再求频谱平方计算能量普
- 能量普取对数
- 能量谱DCT变换得到MFCC 静态特征.
SVM
这篇文章挺适合我这种小白入门的.
针对线性可分情况进行分析,对线性不可分的情况,通过非线性映射算法讲低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使高维特征空间采用线性算法对样本的分线性特征进行线性分析成为可能.
svm可以挖掘出数据中的高层未知参数.
GMM UBM
通过EM算法训练,估计一个高阶的GMM模型参数来刻画说话人的特征分布,训练阶段未覆盖到的特征区域采用UBM的特征近似刻画。在识别阶段,将测试的语音特征和模型匹配得分累加(最大似然率),输出识别结果。
GMM
GMM是一种概率模型,建模的依据是特征的概率分布情况。根据似然得分来判断模型的相似性。声学特征代表广义上的因素。
GMM利用多个高斯分布的组合来近似矢量的连续概率分布情况。
说话人的声学特征参数可以认为是不同发音时的声特征在特征空间的集合而成的.从不同的语音参数特征分布中找到不同的说话人.
- 用EM算法进行迭代,拟合训练高斯模型,但是拟合精度和训练数据为正比关系,但是实际场景没有大量的训练数据.因此引入UBM.
UBM
通用背景模型(Universal Background Model,UBM)
- 用大量说话人语音训练出一个高阶高斯模型,包含了大量说话人的特征信息.GMM模型来表征说话人的个性特征.GMM和UBM之间的高斯概率密度函数建立了相互对应的关系,抵消声音因素的影响,凸显目标说话人的个性特点.
- UBM模型是在GMM模型上最大的后验概率上(MAP)自适应得到的.MAP自适应只修改UBM和目标说话人特征中相近部分的高斯分布的买搜狐,突出目标说话人的个性特征所在,与目标说话人特征分布较远的部分不做变动,表明目标说话人和冒充者的共同特征.训练时间越长,UBM越接近说话人的分布并且远离UBM.
GMM-SVM
GMM-UBM只关注自身语音特征的分布情况,对于相似的说话人和说话人之间的特征差异未做考虑.冒充的风险较大.GMM-UBM做为模型的前端(刻画特征,将特征从低维空间扩展到高维空间),然后用SVM基于特征分类.
-
将GMM-UBM得到说话人模型的各个混合分量的均值向量拼接成GSV高斯超矢量
SVM
SVM可以从一组有监督的样本中找到正样本和负样本的最佳分界面.
svm训练需要正例样本和负例样本,将正例样本和负例样本的GSV一起做为SVM的输入,训练一个超平面以表征目标话者的模型.
i-vector
即包含说话者之间的差异,又包含信道的差异.将高维空间的特征投影到低维.
将语音特征提取为一个低维的矢量矩阵,用来表征说话人信息的差异性,在识别阶段只需要计算矢量之间的余弦距离就可以作为相似性的评价标准,降低计算复杂度.
- 全局差异空间的估计
- i-vector的估计
- PLDA 空间应用概率线性鉴别分析