谷歌推出最新人工智能媒体创作模型Veo和Imagen 3

发布时间：2024-05-15 09:08:33编辑：可爱的眼神来源：

Google I/O 上一直都是人工智能!今天，谷歌发布了新的人工智能媒体创作引擎：Veo，可以制作“高质量”1080p 视频;以及 Imagen 3，其最新的文本到图像框架。这两个听起来都不是特别革命性的，但它们是谷歌继续对抗OpenAI 的 Sora 视频模型和Dall-E 3的一种方式，Dall-E 3 实际上已经成为人工智能生成图像的代名词。

谷歌声称 Veo 具有“对自然语言和视觉语义的高级理解”，可以创建您想要的任何视频。人工智能生成的视频可以持续“超过一分钟”。 Veo 还能够理解电影和视觉技术，例如延时拍摄的概念。但实际上，这应该是人工智能视频生成模型的赌注，对吗?

为了证明 Veo 不会抢走艺术家的工作，谷歌还与 Donald Glover 和他的创意工作室 Gilga 合作，展示该模型的功能。在一段非常简短的宣传视频中，我们看到格洛弗和工作人员用文字制作了一辆敞篷车抵达欧洲家庭、一艘帆船在海洋中滑行的视频。据谷歌称，Veo 可以比之前的模型更好地模拟现实世界的物理现象，并且还改进了渲染高清镜头的方式。

“每个人都会成为导演，每个人都应该成为导演，”格洛弗在视频中说道，他的薪水绝对是靠谷歌赚来的。 “这一切的核心就是讲故事。我们越能互相讲述我们的故事，我们就越能理解彼此。”

除了看到机器试图通过算法重现人类艺术家作品的病态好奇心之外，是否有人真的想观看人工智能生成的视频还有待观察。但这并不能阻止 Google 或 OpenAI 推广这些工具，并希望它们有用(或者至少能赚大钱)。 Veo 今天将在 Google VideoFX 工具中为一些创作者提供，该公司表示它也将出现在 YouTube Shorts 和其他产品中。如果 Veo 最终成为 YouTube Shorts 的内置部分，那么这至少是谷歌可以超越 TikTok 的一项功能。

至于 Imagen 3，谷歌做出了一贯的承诺：据说这是该公司“最高质量”的文本到图像模型，具有“令人难以置信的细节水平”，可实现“逼真、逼真的图像”，并且伪影更少。当然，真正的测试是看看它与 Dall-E 3 相比如何处理提示。谷歌表示，Imagen 3 处理文本的能力比以前更好，而且在处理长提示的细节方面也更智能。

谷歌还与 Wyclef Jean 和 Bjorn 等唱片艺术家合作测试其 Music AI Sandbox，这是一套可以帮助歌曲和节拍创作的工具。我们只看到了这一点的简短介绍，但它带来了一些有趣的演示：

太阳升起和落下。我们都在慢慢死去。人工智能正变得越来越聪明。这似乎是谷歌最新媒体创建工具的一大收获。当然，他们正在变得更好!谷歌正在投入数十亿美元来实现人工智能的梦想，所有这些都是为了实现计算领域的下一次巨大飞跃。这真的会让我们的生活变得更好吗?他们能否创作出具有真正灵魂的艺术?每年都会回顾一下 Google I/O，直到 AGI 真正出现，或者我们的文明崩溃。

上一篇：安卓的Circle to Search现在可以帮助学生解决数学和物理作业

下一篇：Comcast移动宽带和电视客户很快就可以注册StreamSaver套餐