分享
Experiments on ReVISE
输入“/”快速插入
Experiments on ReVISE
介绍
ReVISE(Resynthesis with Visual Input for Speech Enhancement)是为了广义语音增强任务(Generalized Speech Enhancement)而设计的。ReVISE希望通过对音视频输入进行识别并重新合成(audio-visual speech resynthesis)来实现对带噪语音的增强。
对于具体的四个任务,如下图所示,其区别在于输入信号中语音信号的受损形式不同,因此在一个统一的任务框架中,四个任务都可以被解决。
模型结构及训练方法
模型结构
ReVISE模型结构分为pseudo audio-visual speech recognition (P-AVSR) 和 pseudo text-to-speech synthesis (P-TTS) 两部分,这两部分由自监督语音模型(self-supervised speech model)产生的离散单元(discrete unit)链接起来。
SSL Tokenizer
使用HuBERT及K-Means实现GT audio到discrete unit的转换。
P-TTS
这部分的输入是离散单元,输出是语音波形。模型结构使用HiFi-GAN实现从离散单元到语音波形的生成。
P-AVSR
这部分的输入是受损的audio和video,输出是离散单元。模型结构使用AV-HuBERT作为encoder,并添加了轻量的反卷积层和softmax层作为分类器。
分类器的模型结构为:
训练方法
使用预训练的SSL Tokenizer将干净语音编码成离散单元,然后用离散单元和干净语音的pair对P-TTS进行训练,用带噪语音及视频和离散单元的pair对P-AVSR进行训练。
SSL Tokenizer
[hubert code](
https://github.com/facebookresearch/fairseq/tree/main/examples/hubert
)
[
quantizer
code](
https://github.com/facebookresearch/fairseq/tree/main/examples/textless_nlp/gslm
)