这个带噪音频到底是纯净语音+噪声,还是纯净语音+干扰声源啊?文章中说的是干扰声源,但是LSTM怎么可以求到纯净声源的掩模呢,我记得LSTM一般都是只能区分语音和噪声的吧,想区分目标语音和干扰语音需要FSMN或者TDNN网络吧?
基于声纹识别的语音分离 VOICE FILTER: TARGETED VOICE SEPARATION (BY SPEAKER-CONDITIONED SPECTROGRAM MASKING)原文连接:https://arxiv.org/pdf/1810.04826.pdf 结果连接: https://google.github.io/speaker-id/pub...