首页>>科技 >>内容

Meta的新型多模态翻译器使用单一模型讲100种语言

发布时间:2023-08-23 09:11:35编辑:可爱的眼神来源:

尽管还没有完全准备好迎接我们一直在等待的杜立特未来,但事实证明,现代人工智能翻译方法足以准确地改变人类之间大约 6,500 种口头和书面交流系统。问题是,这些模型中的每一个往往只能很好地完成一两个任务——将文本翻译和转换为语音、将语音转换为文本或在两组之间进行转换——所以你最终不得不在上面粉碎一堆模型相互协作,创造出谷歌翻译或 Facebook 的多种语言服务等通用性能。

Meta的新型多模态翻译器使用单一模型讲100种语言

这是一个计算密集型过程,因此 Meta 开发了一个可以完成这一切的单一模型。Meta 在周二的博客中写道,SeamlessM4T 是“一种基础的多语言和多任务模型,可以无缝翻译和转录语音和文本”。它可以在近 100 种语言之间进行翻译,实现语音到文本和文本到文本功能,语音到语音和文本到语音支持这些相同的语言作为输入,并以其他 36 种语言中的任何一种语言进行输出,包括英语。

Meta 的研究团队在博客文章中指出,SeamlessM4T“显着提高了我们支持的中低资源语言的性能”,同时保持“高资源语言(例如英语、西班牙语和德语)的强劲性能。 ” Meta 从其现有的基于 PyTorch 的多任务 Unity 模型架构构建 SeamlessM4T,该架构已经本机执行各种模态翻译以及自动语音识别。它利用BERT 2.0 系统进行音频编码,将输入分解为其组件标记进行分析,并使用HiFi-GAN 单元声码器来生成语音响应。

Meta 还策划了一个大规模的开源语音到语音和语音到文本并行语料库,称为 SeamlessAlign。该公司从公开存储库中挖掘了“数百亿个句子”和“四百万小时”的语音,以“自动将超过 443,000 小时的语音与文本对齐,并创建约 29,000 小时的语音到语音对齐”。博客。据报道,在进行稳健性测试时,SeamlessM4T 在背景噪声和扬声器风格变化方面的性能分别比其(当前最先进的)前身高出 37% 和 48%。

与之前的大多数机器翻译工作一样,无论是Llama 2、大规模多语言语音 ( MMS )、通用语音翻译器 ( UST ),还是雄心勃勃的不让任何语言落后(NLLB) 项目,SeamlessM4T 正在开源。该团队写道:“我们相信 SeamlessM4T 是人工智能社区寻求创建通用多任务系统的一个重要突破。” “与我们的开放科学方法保持一致,我们很高兴公开分享我们的模型,以允许研究人员和开发人员在这项技术的基础上进行开发。” 如果您有兴趣亲自使用 SeamlessM4T,请前往GitHub 下载模型、训练数据和文档。