Docs

Experiments on ReVISE

输入“/”快速插入

Experiments on ReVISE

介绍

ReVISE（Resynthesis with Visual Input for Speech Enhancement）是为了广义语音增强任务（Generalized Speech Enhancement）而设计的。ReVISE希望通过对音视频输入进行识别并重新合成（audio-visual speech resynthesis）来实现对带噪语音的增强。​

对于具体的四个任务，如下图所示，其区别在于输入信号中语音信号的受损形式不同，因此在一个统一的任务框架中，四个任务都可以被解决。​

模型结构及训练方法

模型结构

ReVISE模型结构分为pseudo audio-visual speech recognition (P-AVSR) 和 pseudo text-to-speech synthesis (P-TTS) 两部分，这两部分由自监督语音模型（self-supervised speech model）产生的离散单元（discrete unit）链接起来。​

SSL Tokenizer

使用HuBERT及K-Means实现GT audio到discrete unit的转换。

P-TTS

这部分的输入是离散单元，输出是语音波形。模型结构使用HiFi-GAN实现从离散单元到语音波形的生成。​

P-AVSR

这部分的输入是受损的audio和video，输出是离散单元。模型结构使用AV-HuBERT作为encoder，并添加了轻量的反卷积层和softmax层作为分类器。​

分类器的模型结构为：

训练方法

使用预训练的SSL Tokenizer将干净语音编码成离散单元，然后用离散单元和干净语音的pair对P-TTS进行训练，用带噪语音及视频和离散单元的pair对P-AVSR进行训练。​

SSL Tokenizer

[hubert code](https://github.com/facebookresearch/fairseq/tree/main/examples/hubert)

[quantizer code](https://github.com/facebookresearch/fairseq/tree/main/examples/textless_nlp/gslm)