Meta的新型多模态翻译器使用单一模型讲100种语言

发布时间：2023-08-23 09:11:35编辑：可爱的眼神来源：

尽管还没有完全准备好迎接我们一直在等待的杜立特未来，但事实证明，现代人工智能翻译方法足以准确地改变人类之间大约 6,500 种口头和书面交流系统。问题是，这些模型中的每一个往往只能很好地完成一两个任务——将文本翻译和转换为语音、将语音转换为文本或在两组之间进行转换——所以你最终不得不在上面粉碎一堆模型相互协作，创造出谷歌翻译或 Facebook 的多种语言服务等通用性能。

这是一个计算密集型过程，因此 Meta 开发了一个可以完成这一切的单一模型。Meta 在周二的博客中写道，SeamlessM4T 是“一种基础的多语言和多任务模型，可以无缝翻译和转录语音和文本”。它可以在近 100 种语言之间进行翻译，实现语音到文本和文本到文本功能，语音到语音和文本到语音支持这些相同的语言作为输入，并以其他 36 种语言中的任何一种语言进行输出，包括英语。

Meta 的研究团队在博客文章中指出，SeamlessM4T“显着提高了我们支持的中低资源语言的性能”，同时保持“高资源语言(例如英语、西班牙语和德语)的强劲性能。 ” Meta 从其现有的基于 PyTorch 的多任务 Unity 模型架构构建 SeamlessM4T，该架构已经本机执行各种模态翻译以及自动语音识别。它利用BERT 2.0 系统进行音频编码，将输入分解为其组件标记进行分析，并使用HiFi-GAN 单元声码器来生成语音响应。

Meta 还策划了一个大规模的开源语音到语音和语音到文本并行语料库，称为 SeamlessAlign。该公司从公开存储库中挖掘了“数百亿个句子”和“四百万小时”的语音，以“自动将超过 443,000 小时的语音与文本对齐，并创建约 29,000 小时的语音到语音对齐”。博客。据报道，在进行稳健性测试时，SeamlessM4T 在背景噪声和扬声器风格变化方面的性能分别比其(当前最先进的)前身高出 37% 和 48%。

与之前的大多数机器翻译工作一样，无论是Llama 2、大规模多语言语音 ( MMS )、通用语音翻译器 ( UST )，还是雄心勃勃的不让任何语言落后(NLLB) 项目，SeamlessM4T 正在开源。该团队写道：“我们相信 SeamlessM4T 是人工智能社区寻求创建通用多任务系统的一个重要突破。” “与我们的开放科学方法保持一致，我们很高兴公开分享我们的模型，以允许研究人员和开发人员在这项技术的基础上进行开发。” 如果您有兴趣亲自使用 SeamlessM4T，请前往GitHub 下载模型、训练数据和文档。

上一篇：Apple Watch Ultra智能手表跌至700美元新低

下一篇：苯乙烯乳液聚合反应流程？苯乙烯多少度聚合