按照如此配置进行了训练,LFR_m = 1,LFR_n = 6,batch_frames = 30000
当时GPU Memory占用约为 6831 MiB
当时运行到Epoch 69时退出了一次,改了部分代码使其接着Epoch 69模型参数开始训练:
当时自动保存了基于开发集模型参数
一共训练了150个epoch
visdom上当时记录的可视化图形,中间小波动就是Epoch 69中途退出重新接上训练的影响
为了方便调试预测过程,新建预测用的shell文件pred.sh
执行过程中,存在一下json文件中的中文编码错误,经过修改之后,成功执行。(参考我的其他文章)
输出result.txt文件:
接下来打印的是具体语音条数:
最后打印的是每条语音识别结果与参考结果,包括每个speaker的语音条数utts、以及语音识别评分(C正确 S替换 D删除 I插入)