OpenAI震撼发布:全能人工智能模型,文图音自如生成


北京时间5月14日凌晨,OpenAI发布了其最新多模态大模型——GPT-4o。“O”代表“全能”,这款新模型支持文本、音频和图像的任意组合输入,并生成各种形式的内容输出。

在文本、推理和编码智能方面,GPT-4o表现优异,达到了GPT-4 Turbo的水平。与此同时,在多语言处理、音频分析及视觉理解能力上也取得了显著突破。据官方介绍,这款新模型的速度比GPT-4 Turbo快两倍,并且速率限制提高了五倍,最高支持每分钟1000万个token。

OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在发布会上表示:“能够通过语音、文本和视觉进行推理非常重要,这是我们研究未来机器交互方式的一部分。”

官网显示,GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户。对于Plus会员来说,消息数量使用上限是免费版本用户的五倍(超过上限则会自动切换回GPT-3.5版)。新版语音模式预计在接下来几周内向Plus用户推出,并且会在API中有限度地支持对新音频和视频功能的访问。

在OpenAI春季更新发布会现场,穆拉蒂介绍了全新的GPT-4o版本,并通过实际演示展示了它的强大功能。

在现场展示中,GPT-4o表现得像一个智能助手,能够实现用户与ChatGPT之间的实时互动对话。这种交互方式不再局限于一问一答的形式,也无需额外的按键操作。例如,用户可以对系统说“Hi, ChatGPT”,并提出问题;在ChatGPT回答过程中也可以随时打断它,并继续提问。此外,GPT-4o还能识别用户声音中的情感变化,并根据需求调整自身语音的情感风格。

据称,GPT-4o的音频输入平均反应时间仅为0.32秒,这与人类对话时的响应速度相当接近。相较于之前的版本——GPT-3.5(延迟为2.8秒)和GPT-4(延迟为5.4秒),GPT-4o实现了显著的提升。

此前,ChatGPT在语音模式下的操作由三个独立模型组成:首先是将音频转成文本的初步处理;接着是利用GPT-4对文本信息进行分析并输出结果;最后则是将文字转化为语音。这一过程使得主要的信息来源——即GPT-4丢失了很多细节,比如无法直接感知音调、多人讲话或背景噪音,也无法表达笑声、歌声或其他情感。

而GPT-4o则通过在一个单一的端到端模型中训练处理文本、视觉和音频信息,实现了所有输入与输出的一致性。这使得GPT-4o在处理语音时能够更好地保留声音中的细节,并能实时反馈各种复杂的情感变化。

不过,OpenAI也承认,尽管GPT-4o是首个结合多种模式的模型,但其功能及其局限性的探索仍处于初级阶段。同时,公司也在扩大对“红队”(即测试团队)的访问权限以进一步优化系统性能。

此外,在视觉识别方面,GPT-4o同样取得了突破性进展。通过现场演示,ChatGPT可以实时分析手机拍摄的视频或电脑屏幕截图,并快速解答相关问题,帮助解决计算、编程等问题。例如,演示者展示了如何利用该功能完成一道数学题的过程。

发布会中还出现了一段有趣的插曲:因为“幻觉”效应,当演示者还未打开摄像头时,ChatGPT误以为已经看到画面内容并做出了回答,在被提示后,它立即纠正了自己的错误,并继续正确解答了问题。这一现象展示了人工智能系统在处理图像信息时可能存在的局限性。

同时,OpenAI还利用X(推特)平台收集用户反馈,并进行情绪分析的演示。通过摄像头捕捉到的表情变化,系统能够识别出开心、兴奋等不同的情绪状态,并做出相应的回应。

总体来看,GPT-4o不仅在英语和编程语言方面保持了与GPT-4 Turbo相当的性能水平,在处理50种非英语语言文本时也有显著提高。穆拉蒂在现场演示中展示了ChatGPT充当两种语言之间的实时翻译器的能力,成功实现了跨语种沟通的无缝对接。

### 性能提升与价格优惠

据发布会透露,GPT-4相较于其Turbo版本,在速度上提升了两倍,并且价格也降低了一半。这使得用户能够以更低的成本享受到更快的响应体验。

### 新界面发布

发布会上还展示了新的电脑桌面版和UI界面设计,官方公告指出,目前该软件仅适用于macOS系统,而Windows版本预计将在今年稍后推出。

### 更自然的人机交互体验

穆拉蒂表示:“我们希望这些复杂的模型能够使人机交互变得更加自然且轻松。用户应该专注于与GPT的交流,而不是被界面所分散注意力。”

### 对话更加自然流畅

OpenAI CEO山姆·奥特曼补充道,“以前和电脑对话从未感觉如此自然过”。他强调这种进步带来的兴奋感未来更多的可能,他认为人工智能达到人类级别的响应速度和表现力是一项巨大变革。

### 创新与惊喜

“最初版本的ChatGPT只是展示了语言界面的可能性,而这款新模型则完全不同。”奥特曼认为,“它既快速又智能有趣且自然乐于助人。”

### 对未来的畅想

值得一提的是,在《Her》这部电影中,人工智能助手Samantha主动给男主人公打电话的情节或许也暗示了对GPT-4o的期待以及对未来无限可能性的美好展望。

山姆·奥特曼在其推文中强调了OpenAI的一项重要使命:免费或以优惠价格向人们提供强大的人工智能工具。“我感到非常自豪的是,我们在ChatGPT中免费提供了世界上最好的模型,并且没有广告或类似的东西”,他这样说道。

作为一家企业,我们将会找到很多可以收费的机会,这将帮助我们为数十亿人提供免费、出色的人工智能服务(希望如此)。”奥特曼补充道。此前有报道称,苹果公司即将与OpenAI达成协议,在今年的iPhone中引入由ChatGPT支持的新功能。

然而,值得注意的是,苹果同时也在与谷歌商议合作事宜,计划将后者的Gemini聊天机器人技术授权给iOS 18使用。此外,谷歌将在OpenAI春季更新后的第二天举行I/O开发者大会,并在官方博文中提到了“Gemini时代”。这预示着他们即将发布关于Gemini大模型的最新进展。