OpenAI震撼发布：全能人工智能模型，文图音自如生成

AI行业信息 GPT-4o 多模态大模型语音识别实时互动

发布于 5 个月前

北京时间5月14日凌晨，OpenAI发布了其最新多模态大模型——GPT-4o。“O”代表“全能”，这款新模型支持文本、音频和图像的任意组合输入，并生成各种形式的内容输出。

在文本、推理和编码智能方面，GPT-4o表现优异，达到了GPT-4 Turbo的水平。与此同时，在多语言处理、音频分析及视觉理解能力上也取得了显著突破。据官方介绍，这款新模型的速度比GPT-4 Turbo快两倍，并且速率限制提高了五倍，最高支持每分钟1000万个token。

OpenAI首席技术官米拉·穆拉蒂（Mira Murati）在发布会上表示：“能够通过语音、文本和视觉进行推理非常重要，这是我们研究未来机器交互方式的一部分。”

官网显示，GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户。对于Plus会员来说，消息数量使用上限是免费版本用户的五倍（超过上限则会自动切换回GPT-3.5版）。新版语音模式预计在接下来几周内向Plus用户推出，并且会在API中有限度地支持对新音频和视频功能的访问。

在OpenAI春季更新发布会现场，穆拉蒂介绍了全新的GPT-4o版本，并通过实际演示展示了它的强大功能。

在现场展示中，GPT-4o表现得像一个智能助手，能够实现用户与ChatGPT之间的实时互动对话。这种交互方式不再局限于一问一答的形式，也无需额外的按键操作。例如，用户可以对系统说“Hi, ChatGPT”，并提出问题；在ChatGPT回答过程中也可以随时打断它，并继续提问。此外，GPT-4o还能识别用户声音中的情感变化，并根据需求调整自身语音的情感风格。

据称，GPT-4o的音频输入平均反应时间仅为0.32秒，这与人类对话时的响应速度相当接近。相较于之前的版本——GPT-3.5（延迟为2.8秒）和GPT-4（延迟为5.4秒），GPT-4o实现了显著的提升。

此前，ChatGPT在语音模式下的操作由三个独立模型组成：首先是将音频转成文本的初步处理；接着是利用GPT-4对文本信息进行分析并输出结果；最后则是将文字转化为语音。这一过程使得主要的信息来源——即GPT-4丢失了很多细节，比如无法直接感知音调、多人讲话或背景噪音，也无法表达笑声、歌声或其他情感。

而GPT-4o则通过在一个单一的端到端模型中训练处理文本、视觉和音频信息，实现了所有输入与输出的一致性。这使得GPT-4o在处理语音时能够更好地保留声音中的细节，并能实时反馈各种复杂的情感变化。

不过，OpenAI也承认，尽管GPT-4o是首个结合多种模式的模型，但其功能及其局限性的探索仍处于初级阶段。同时，公司也在扩大对“红队”（即测试团队）的访问权限以进一步优化系统性能。

此外，在视觉识别方面，GPT-4o同样取得了突破性进展。通过现场演示，ChatGPT可以实时分析手机拍摄的视频或电脑屏幕截图，并快速解答相关问题，帮助解决计算、编程等问题。例如，演示者展示了如何利用该功能完成一道数学题的过程。

发布会中还出现了一段有趣的插曲：因为“幻觉”效应，当演示者还未打开摄像头时，ChatGPT误以为已经看到画面内容并做出了回答，在被提示后，它立即纠正了自己的错误，并继续正确解答了问题。这一现象展示了人工智能系统在处理图像信息时可能存在的局限性。

同时，OpenAI还利用X（推特）平台收集用户反馈，并进行情绪分析的演示。通过摄像头捕捉到的表情变化，系统能够识别出开心、兴奋等不同的情绪状态，并做出相应的回应。

总体来看，GPT-4o不仅在英语和编程语言方面保持了与GPT-4 Turbo相当的性能水平，在处理50种非英语语言文本时也有显著提高。穆拉蒂在现场演示中展示了ChatGPT充当两种语言之间的实时翻译器的能力，成功实现了跨语种沟通的无缝对接。

### 性能提升与价格优惠

据发布会透露，GPT-4相较于其Turbo版本，在速度上提升了两倍，并且价格也降低了一半。这使得用户能够以更低的成本享受到更快的响应体验。

### 新界面发布

发布会上还展示了新的电脑桌面版和UI界面设计，官方公告指出，目前该软件仅适用于macOS系统，而Windows版本预计将在今年稍后推出。

### 更自然的人机交互体验

穆拉蒂表示：“我们希望这些复杂的模型能够使人机交互变得更加自然且轻松。用户应该专注于与GPT的交流，而不是被界面所分散注意力。”

### 对话更加自然流畅

OpenAI CEO山姆·奥特曼补充道，“以前和电脑对话从未感觉如此自然过”。他强调这种进步带来的兴奋感未来更多的可能，他认为人工智能达到人类级别的响应速度和表现力是一项巨大变革。

### 创新与惊喜

“最初版本的ChatGPT只是展示了语言界面的可能性，而这款新模型则完全不同。”奥特曼认为，“它既快速又智能有趣且自然乐于助人。”

### 对未来的畅想

值得一提的是，在《Her》这部电影中，人工智能助手Samantha主动给男主人公打电话的情节或许也暗示了对GPT-4o的期待以及对未来无限可能性的美好展望。

山姆·奥特曼在其推文中强调了OpenAI的一项重要使命：免费或以优惠价格向人们提供强大的人工智能工具。“我感到非常自豪的是，我们在ChatGPT中免费提供了世界上最好的模型，并且没有广告或类似的东西”，他这样说道。

作为一家企业，我们将会找到很多可以收费的机会，这将帮助我们为数十亿人提供免费、出色的人工智能服务（希望如此）。”奥特曼补充道。此前有报道称，苹果公司即将与OpenAI达成协议，在今年的iPhone中引入由ChatGPT支持的新功能。

然而，值得注意的是，苹果同时也在与谷歌商议合作事宜，计划将后者的Gemini聊天机器人技术授权给iOS 18使用。此外，谷歌将在OpenAI春季更新后的第二天举行I/O开发者大会，并在官方博文中提到了“Gemini时代”。这预示着他们即将发布关于Gemini大模型的最新进展。