首页>>科技 >>内容

ChatGPT现在支持语音聊天和基于图像的查询

发布时间:2023-09-26 09:35:15编辑:可爱的眼神来源:

聊天GPT正在获得一些重大更新,使聊天机器人能够处理语音命令和基于图像的查询。用户将能够在 Android 和 iOS 上与 ChatGPT 进行语音对话,并在所有平台上将图像输入其中。开放人工智能现在正在推出这些功能。它们首先可供 Plus 和 Enterprise 用户使用,其他人稍后也可以访问基于图像的功能。

ChatGPT现在支持语音聊天和基于图像的查询

如果您想尝试的话,您需要在 ChatGPT 应用程序中选择加入语音对话(依次转到“设置”和“新功能”)。通过点击麦克风按钮,您可以从五种不同的声音中进行选择。

OpenAI 表示,来回语音对话由新的文本转语音模型提供支持,该模型可以“仅从文本和几秒钟的样本语音中生成类似人类的音频”。它在专业演员的帮助下创造了五个声音。反之,公司的耳语语音识别系统将用户的口语转换为文本。

基于图像的功能也很有趣。OpenAI 表示,例如,你可以向聊天机器人展示你的烧烤架的照片,并询问它为什么无法启动,让它根据你冰箱里的食物的快照来帮助计划一顿饭,或者提示它解决你的数学问题。拍一张照片。碰巧的是,微软强调了副驾驶人工智能解决数学问题的能力上周在 Windows 的 Surface 活动中。

OpenAI 使用 GPT-3.5 和 GPT-4 来支持图像识别功能。要使用 ChatGPT 基于图像的功能,请点击照片按钮(在 iOS 或 Android 上,您需要先点击加号按钮)来拍摄快照或选择设备上的现有图像。您可以向 ChatGPT 询问多张照片,并使用绘图工具来关注图像的特定部分。

在一篇博文中OpenAI 在宣布更新时指出了潜在的危害。不良行为者有可能模仿公众人物(和普通人)的声音,并可能实施欺诈。这就是为什么 OpenAI 专注于使用该技术的 ChatGPT 语音对话,并与精选合作伙伴就其他有限的用例进行合作(稍后会详细介绍)。

至于图像,OpenAI 与成为我的眼睛,这是一款免费应用程序,盲人和低视力人士可以使用它来帮助他们更好地了解周围的环境,这要归功于志愿者与他们进行视频通话。OpenAI 表示:“用户告诉我们,他们发现就背景中恰好包含人物的图像进行一般性对话很有价值,就像当你试图弄清楚遥控器设置时有人出现在电视上一样。” 该公司指出,它还限制了 ChatGPT 对图像中出现的人进行分析和直接陈述的方式,“因为 ChatGPT 并不总是准确的,这些系统应该尊重个人隐私。” 它有发表论文基于图像的功能的安全特性,它称之为带有视觉的 GPT-4。

ChatGPT 在理解图像中的英文文本方面比其他语言更有效。OpenAI 表示,该聊天机器人目前在其他语言中“表现不佳”,特别是在使用非罗马文字的语言中。因此,它建议非英语用户暂时避免使用 ChatGPT 处理图像中的文本。

与此同时,Spotify 与 OpenAI 合作,将基于语音的技术用于一个有趣的目的。前者宣布为播客推出一款名为“语音翻译”的工具试点。这可以使用节目中出现的人的声音将播客翻译成不同的语言。Spotify 表示,该工具可以在将原始说话者的声音转换为其他语言后保留其语音特征。

首先,Spotify 正在将精选的英语节目转换成几种语言。一些纸上谈兵专家和史蒂文·巴特利特首席执行官日记的西班牙语版本现在可用,随后还有法语和德语变体。