Voicebox

Voicebox是什么？

Voicebox是由Meta公司开发的一款尖端语音生成模型，它基于非自回归流匹配模型构建，能够通过大规模数据学习文本引导的语音填充任务。Voicebox能够在多种语言中合成语音，去除瞬态噪声，编辑内容，转换音频风格，生成多样化的语音样本，并且比现有的自回归模型快20倍。

主要特点：

多语言合成：支持六种语言（英语、法语、德语、西班牙语、波兰语和葡萄牙语）。
快速生成：比现有最先进的自回归模型快20倍。
上下文学习：能够通过上下文学习执行未明确训练的任务。
灵活性：与仅依赖过去上下文的自回归模型相比，Voicebox可以利用未来上下文，更加灵活。

主要功能：

瞬态噪声去除：能够去除录音中的瞬态噪声，如门铃或狗叫声。
内容编辑：帮助纠正误读的单词，无需重新录音。
零样本文本到语音合成：通过上下文学习，合成具有任何音频风格的语音。
跨语言风格转换：能够跨语言转换风格，例如使用法语提示生成英语语音。
多样化语音生成：通过采样创造独特且富有表现力的音频风格。

使用示例：

瞬态噪声去除：使用Voicebox重新生成被噪声污染的语音。
内容编辑：对误读的文本进行编辑，Voicebox会相应地调整语音输出。
零样本文本到语音合成：输入想要风格的参考音频和文本，Voicebox将合成听起来与参考一致的语音。
跨语言风格转换：使用非英语的音频提示生成英语语音，或将配音语音转换为原说话者的声音。
多样化语音生成：Voicebox可以创建独特的音频风格，无需任何音频条件。

总结：

Voicebox是一个强大的多语言语音生成模型，它通过上下文学习执行多种语音相关任务，展现出了在语音合成、编辑和风格转换方面的先进能力。尽管Voicebox具有巨大的潜力，但Meta公司也意识到了这项技术可能被滥用的风险，并建立了有效的分类器来区分真实语音和由Voicebox生成的音频，以减轻潜在的未来风险。目前，Voicebox模型和代码没有公开提供，以确保技术的负责任使用。