获取更多信息请下载APP

识别人类情绪、实时回答更健谈!GPT-4o发布或开启人工智能交互新潮流

来源:北京科技报    发布日期:2024-05-14 14:55:37   阅读量:0

OpenAI又迎来升级,摇身一变成了人工智能语音助手。

北京时间周二凌晨1点, 人工智能(AI)巨头OpenAI举行春季发布会。公司首席技术官Mira Murati带来了多项与ChatGPT有关的更新。

640(1)

本次发布会要点:

  1. 新的 GPT-4o 模型:打通任何文本、音频和图像的输入,相互之间可以直接生成,无需中间转换

  2. GPT-4o 语音延迟大幅降低,能在 232 毫秒内回应音频输入,平均为 320 毫秒,这与对话中人类的响应时间相似。

  3. GPT-4o 向所有用户免费开放

  4. GPT-4o API,比 GPT 4-Turbo 快 2 倍,价格便宜 50%

  5. 惊艳的实时语音助手演示:对话更像人、能实时翻译,识别表情,可以通过摄像头识别画面写代码分析图表

  6. ChatGPT 新 UI,更简洁

  7. 一个新的 ChatGPT 桌面应用程序,适用于 macOS,Windows 版本今年晚些时候推出

整场发布会中,最吸引人的莫过于GPT-4o 模型。

据OpenAI表示,GPT-4o是一个“原生多模态”模型,它的命名来源于“omni”,即包罗万象之意。

比起此前要么是图文模式要么是语音模式的GPT-4,它更擅长打组合拳,可以接受文字、音频、图像的任意组合输入,然后无缝衔接图文音频的多种形式输出。

GPT4o可检测人的情绪

OpenAI联合创始人奥特曼曾表示,“多模态交互能力非常强大,比如可以问:‘嘿,ChatGPT,我正在看什么’或‘我不太确定这是哪种植物。’”

“我期望的是一种始终处于激活状态,且极易使用的设备,可以通过语音、文字,或者更理想的其他状态,来理解我的需求。”奥特曼表示,“设想有个系统能全天辅助我,尽可能多地去收集上下文信息,成为世界上最出色的助理,不断地帮助我提升自我。”

通过响应速度的大幅提升,该模型在语音模式下,已经可以达到“实时”响应的状态,不再需要尴尬地等上几秒钟,等ChatGPT给出一个回答。

换句话说,用户可以与ChatGPT像真人一样聊天——在机器人回应的过程中打断它,提出更多的要求(例如转变话题、要求机器人改变语音语调),再也不需要等待机器人完成上一个问题的回复后,再提出新的问题。

发布会上,主持人与ChatGPT寒暄几句,它能够从对方的喘气声中理解“紧张”的含义,并且指导他进行深呼吸。

640(3)

随后,主持人开了摄像头,拍了白纸上一道题目,请ChatGPT实时帮忙解一个一元方程题,又解读了一幅气温图表。除了图像识别和解题能力外,ChatGPT展现了实时根据影像变化,与人们实时互动的能力。

640(4)

主持人还展示了和ChatGPT进行意大利语、英语的对话聊天,ChatGPT毫不费力地就能充当两人的现场翻译员,实时准确地翻译出对话内容。

用户无需注册即可使用ChatGPT

此外,OpenAI宣布,将允许用户直接使用ChatGPT,而无需注册该项服务,同时ChatGPT的免费用户也能用上最新发布的GPT-4o模型(更新前只能使用GPT-3.5),来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店的开发者,将面对海量的新增用户。

当然,付费用户将会获得更高的消息限制,至少是免费用户的5倍。当免费用户用完消息数量后,ChatGPT将自动切换到 GPT-3.5。另外,OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验,目前GPT-4o的API并不包含语音功能。

苹果用户迎来ChatGPT桌面应用

640(5)

最后,苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面并向ChatGP提问,OpenAI表示,Windows版本将在今年晚些时候推出。

OpenAI 还表示,ChatGPT 还优化了用户界面,有了全新的界面。OpenAI 的演示显示,用户可以将处于最小化窗口的 ChatGPT 桌面应用与其他程序并排打开。用户可以通过输入或语音的方式向 ChatGPT 提问屏幕上显示的内容,ChatGPT 则能根据其“所见” 进行回答。

对于苹果用户,人们可以通过 Option + 空格键向 ChatGPT 提问,并且可以在应用内截取和讨论屏幕截图。

参考来源潮新闻客户端、机器之心、果壳、GitHub爱好者社区等

整理:段大卫