首页>>科技 >>内容

谷歌推出最新人工智能媒体创作模型Veo和Imagen 3

发布时间:2024-05-15 09:08:33编辑:可爱的眼神来源:

Google I/O 上一直都是人工智能!今天,谷歌发布了新的人工智能媒体创作引擎:Veo,可以制作“高质量”1080p 视频;以及 Imagen 3,其最新的文本到图像框架。这两个听起来都不是特别革命性的,但它们是谷歌继续对抗OpenAI 的 Sora 视频模型和Dall-E 3的一种方式,Dall-E 3 实际上已经成为人工智能生成图像的代名词。

谷歌推出最新人工智能媒体创作模型Veo和Imagen 3

谷歌声称 Veo 具有“对自然语言和视觉语义的高级理解”,可以创建您想要的任何视频。人工智能生成的视频可以持续“超过一分钟”。 Veo 还能够理解电影和视觉技术,例如延时拍摄的概念。但实际上,这应该是人工智能视频生成模型的赌注,对吗?

为了证明 Veo 不会抢走艺术家的工作,谷歌还与 Donald Glover 和他的创意工作室 Gilga 合作,展示该模型的功能。在一段非常简短的宣传视频中,我们看到格洛弗和工作人员用文字制作了一辆敞篷车抵达欧洲家庭、一艘帆船在海洋中滑行的视频。据谷歌称,Veo 可以比之前的模型更好地模拟现实世界的物理现象,并且还改进了渲染高清镜头的方式。

“每个人都会成为导演,每个人都应该成为导演,”格洛弗在视频中说道,他的薪水绝对是靠谷歌赚来的。 “这一切的核心就是讲故事。我们越能互相讲述我们的故事,我们就越能理解彼此。”

除了看到机器试图通过算法重现人类艺术家作品的病态好奇心之外,是否有人真的想观看人工智能生成的视频还有待观察。但这并不能阻止 Google 或 OpenAI 推广这些工具,并希望它们有用(或者至少能赚大钱)。 Veo 今天将在 Google VideoFX 工具中为一些创作者提供,该公司表示它也将出现在 YouTube Shorts 和其他产品中。如果 Veo 最终成为 YouTube Shorts 的内置部分,那么这至少是谷歌可以超越 TikTok 的一项功能。

至于 Imagen 3,谷歌做出了一贯的承诺:据说这是该公司“最高质量”的文本到图像模型,具有“令人难以置信的细节水平”,可实现“逼真、逼真的图像”,并且伪影更少。当然,真正的测试是看看它与 Dall-E 3 相比如何处理提示。谷歌表示,Imagen 3 处理文本的能力比以前更好,而且在处理长提示的细节方面也更智能。

谷歌还与 Wyclef Jean 和 Bjorn 等唱片艺术家合作测试其 Music AI Sandbox,这是一套可以帮助歌曲和节拍创作的工具。我们只看到了这一点的简短介绍,但它带来了一些有趣的演示:

太阳升起和落下。我们都在慢慢死去。人工智能正变得越来越聪明。这似乎是谷歌最新媒体创建工具的一大收获。当然,他们正在变得更好!谷歌正在投入数十亿美元来实现人工智能的梦想,所有这些都是为了实现计算领域的下一次巨大飞跃。这真的会让我们的生活变得更好吗?他们能否创作出具有真正灵魂的艺术?每年都会回顾一下 Google I/O,直到 AGI 真正出现,或者我们的文明崩溃。