利用LWF实现对语码转换的语音识别

论文题目: Learning to Recognize Code-switched SpeechWithout Forgetting Monolingual Speech Recognition.
论文链接

在对单语语音ASR模型进行微调后,模型会忘记(catastrophic forgetting)单语语音的分布,而倾向于语码转换语音,对原单语语音的识别性能下降。

因此,本文研究在对语码转换识别进行微调的情况下如何保证原单语语音的识别性能。通过在三种印度语与英语的混合数据上进行实验,提出将LWF应用于单语模型的微调,可以实现与直接在单语-CS混合数据上训练E2E模型相近的性能,而不需要原单语数据(通常较大)。


问题

  • 从头训练高成本:单语语音模型训练成本很高(大量数据+长时间),无法重新end2end训练,例如将code-switched数据与单语数据混合。
  • 微调影响性能:ASR模型在针对code-switched语音进行fine-tuning,在原单语语音上的性能会降低。例如对四川话微调后的模型,其普通话识别率会下降。

方法

论文方法基于CTC-based E2E模型进行语音识别。

Model: 2 * CNN --> 5 * BLSTM(1024d) --> FC --> softmax

LWF: Learning Without Forgetting

针对只有单语模型,没有单语数据, 无法端到端重新训练pooled模型。

  • LWF目标:在保留旧知识的基础上学习新的知识。
  • 具体方法:知识蒸馏+微调;将模型在原任务上的输出记录下来,作为引导信息,从而使得网络尽可能少忘记在原任务上的表现。

在本文中,共享参数\theta_s;原任务参数\theta_m;新任务参数\theta_c,具体而言算法流程为:

  • 初始化阶段:用原模型(MONO)直接识别CS数据,记录下来
  • 热身阶段:固定原模型参数\theta_s, \theta_m,使用CS数据在前5个epochs训练\theta_c
  • 微调阶段:使用CS数据训练\theta_s, \theta_m, \theta_c,直到收敛。(此时,在初始化阶段被记录下来的label相当于原MONO模型的信息)

正则化

针对既有单语模型,也有单语数据。

具体方法:加入pre-train模型与微调模型输出的KL散度惩罚项,有以下两种方式。相当于对微调过程中新任务与原任务输出之间的差异进行约束。
L=(1-\alpha) L_{C T C}+\alpha D_{K L}\left(P_{t} \| Q_{t}\right) \quad (1)
L=L_{C T C}+\gamma D_{K L}\left(P_{t} \| Q_{t}\right) \quad (2)

结果

数据集

语音数据:三种方言及其与英语的code-switchig(CS): Tamil-English(TA), Telugu-English(TE) and Gujarati-English(GU)

训练/测试:训练-会话数据和短语数据;测试-仅使用短语数据。训练时数据混合单语数据(MONO)和CS数据;测试时则将两者分开。

数据统计:训练-MONO与CS数据各约200小时(现实中CS数据一般较少,不太符合实际情况);测试-MONO与CS各约20小时(GU较少);CMI约20。

CMI: Code Mixing Index. \mathrm{CMI}=\frac{\sum_{i=1}^{N}\left(w_{i}\right)-\max \left\{w_{i}\right\}}{n-u}

基线

TL;DR 有效方法:

  • 混合MONO和CS数据训练,并在此基础上微调
  • 用较少的数据进行微调效果更好
  • 对KL散度进行约束对性能稍有提升

但是,实际上我们往往无法获得MONO数据,而只有MONO模型。


简单基线

将以下三种训练方式作为基线:

  • exp1: 仅使用MONO数据
  • exp2: 仅适用CS数据
  • exp3: 混合数据(lower WER)

微调基线

条件:10% learning rate with CS data,两种Fine-tuning模型:

  • exp4: 对在MONO数据上训练的模型微调 (对MONO和CS表现都不好)
  • exp5: 对混合数据训练的模型进行微调 (best baseline)

在此基础上对CS数据进行随机采样(25%-50%-75%),针对混合模型进行微调,25%采样性能最好——随机采样有效。

  • reg: fine-tuning with regularization

结果显示,在式(2)正则(Scaled KLD)下在TA/TE数据上有提升。

LWF

  • 在没有MONO数据的情况下,获得了比较接近best fine-tuning的性能结果。
  • 并不一定能获得最佳性能(因为无法获得原始MONO训练数据),但是能够有效降低exp4(在MONO模型上微调)的性能gap。

相关论文和代码

本文相关模型算法

[1] CTC E2E模型:Luo N, Jiang D, Zhao S, et al. Towards end-to-end code-switching speech recognition[J]. arXiv preprint arXiv:1810.13091, 2018.
[2] LWF算法: Li Z, Hoiem D. Learning without forgetting[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(12): 2935-2947.

其他相关论文

[1] 相关综述:Sitaram S, Chandu K R, Rallabandi S K, et al. A survey of code-switched speech and language processing[J]. arXiv preprint arXiv:1904.00784, 2019.
[2] 多任务学习方案:Shan C, Weng C, Wang G, et al. Investigating end-to-end speech recognition for Mandarin-English code-switching[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 6056-6060.
[3] 元学习方案:Winata G I, Cahyawijaya S, Lin Z, et al. Meta-Transfer Learning for Code-Switched Speech Recognition[J]. arXiv preprint arXiv:2004.14228, 2020.

相关代码

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342