识别人类情绪、实时回答更健谈！GPT-4o发布或开启人工智能交互新潮流_热点科普

识别人类情绪、实时回答更健谈！GPT-4o发布或开启人工智能交互新潮流

来源：北京科技报发布日期：2024-05-14 14:55:37 阅读量：0

OpenAI又迎来升级，摇身一变成了人工智能语音助手。

北京时间周二凌晨1点，人工智能（AI）巨头OpenAI举行春季发布会。公司首席技术官Mira Murati带来了多项与ChatGPT有关的更新。

640(1)

本次发布会要点：

整场发布会中，最吸引人的莫过于GPT-4o 模型。

据OpenAI表示，GPT-4o是一个“原生多模态”模型，它的命名来源于“omni”，即包罗万象之意。

比起此前要么是图文模式要么是语音模式的GPT-4，它更擅长打组合拳，可以接受文字、音频、图像的任意组合输入，然后无缝衔接图文音频的多种形式输出。

GPT4o可检测人的情绪

OpenAI联合创始人奥特曼曾表示，“多模态交互能力非常强大，比如可以问：‘嘿，ChatGPT，我正在看什么’或‘我不太确定这是哪种植物。’”

“我期望的是一种始终处于激活状态，且极易使用的设备，可以通过语音、文字，或者更理想的其他状态，来理解我的需求。”奥特曼表示，“设想有个系统能全天辅助我，尽可能多地去收集上下文信息，成为世界上最出色的助理，不断地帮助我提升自我。”

通过响应速度的大幅提升，该模型在语音模式下，已经可以达到“实时”响应的状态，不再需要尴尬地等上几秒钟，等ChatGPT给出一个回答。

换句话说，用户可以与ChatGPT像真人一样聊天——在机器人回应的过程中打断它，提出更多的要求（例如转变话题、要求机器人改变语音语调），再也不需要等待机器人完成上一个问题的回复后，再提出新的问题。

发布会上，主持人与ChatGPT寒暄几句，它能够从对方的喘气声中理解“紧张”的含义，并且指导他进行深呼吸。

640(3)

随后，主持人开了摄像头，拍了白纸上一道题目，请ChatGPT实时帮忙解一个一元方程题，又解读了一幅气温图表。除了图像识别和解题能力外，ChatGPT展现了实时根据影像变化，与人们实时互动的能力。

640(4)

主持人还展示了和ChatGPT进行意大利语、英语的对话聊天，ChatGPT毫不费力地就能充当两人的现场翻译员，实时准确地翻译出对话内容。

用户无需注册即可使用ChatGPT

此外，OpenAI宣布，将允许用户直接使用ChatGPT，而无需注册该项服务，同时ChatGPT的免费用户也能用上最新发布的GPT-4o模型（更新前只能使用GPT-3.5），来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。这也意味着GPT应用商店的开发者，将面对海量的新增用户。

当然，付费用户将会获得更高的消息限制，至少是免费用户的5倍。当免费用户用完消息数量后，ChatGPT将自动切换到 GPT-3.5。另外，OpenAI将在未来1个月左右向Plus用户推出基于GPT-4o改进的语音体验，目前GPT-4o的API并不包含语音功能。

苹果用户迎来ChatGPT桌面应用

640(5)

最后，苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用，用户可以通过快捷键“拍摄”桌面并向ChatGP提问，OpenAI表示，Windows版本将在今年晚些时候推出。

OpenAI 还表示，ChatGPT 还优化了用户界面，有了全新的界面。OpenAI 的演示显示，用户可以将处于最小化窗口的 ChatGPT 桌面应用与其他程序并排打开。用户可以通过输入或语音的方式向 ChatGPT 提问屏幕上显示的内容，ChatGPT 则能根据其“所见” 进行回答。

对于苹果用户，人们可以通过 Option + 空格键向 ChatGPT 提问，并且可以在应用内截取和讨论屏幕截图。

参考来源：潮新闻客户端、机器之心、果壳、GitHub爱好者社区等

整理：段大卫

重点聚焦更多>>

热点科普更多>>