Voicebox是什么?
Voicebox 是 Meta AI 研究团队精心打造的一款前沿语音生成技术。这款强大的模型支持六种语言进行语音合成,能够有效消除瞬态噪声干扰,对语音内容进行编辑处理,实现跨语言音频风格的迁移,并生成丰富多样的语音样本。特别值得一提的是,其语音生成速度比当前最先进的自回归模型快达20倍。
官网:https://voicebox.metademolab.com/
产品功能
Voicebox 采用非自回归的流匹配架构,专门设计用于在给定音频环境和文本指令下生成语音。团队分别构建了英语专用的 Voicebox 模型(基于60K小时数据训练)以及多语言版本(覆盖英语、法语、德语、西班牙语、波兰语和葡萄牙语,训练数据为50K小时)。 该模型具备强大的上下文学习能力,能够处理未经明确训练的任务。相比自回归模型,Voicebox 的灵活性更高,可以结合过去和未来的上下文信息进行条件化处理。我们验证了它在多种应用中的能力:单语及跨语言的零样本文本到语音转换、音频风格迁移、瞬态噪声消除、内容编辑以及多样化语音样本生成等。
使用场景
- 瞬态噪声去除:录音时被门铃或狗吠意外打断?Voicebox 可像魔术橡皮擦般消除这些干扰,通过重新生成干净语音实现降噪效果。
- 内容编辑:当出现说错词的情况,Voicebox 无需重新录制,即可智能修正错误发音。
- 零样本文本到语音合成:通过结合参考音频和目标文本,Voicebox 能生成高度匹配的语音输出,完美复制声音特质、背景噪音及说话风格等所有细节。
- 跨语言风格转换:该技术不仅支持英语提示生成英语语音,还能实现不同语言间的风格迁移转换。
评论 ( 0 )