OpenAI 推出 GPT-4：全能语言模型，颠覆语音助手

AI行业信息 GPT-4o 语音处理图像处理音频翻译视觉理解

发布于 6 个月前

OpenAI 在本周一(2024年5月13号)推出了名为 GPT-4 的新旗舰级生成式人工智能模型。这个“o”代表“全能”，意味着这款模型能够处理文本、语音和视频三种不同的输入方式。

在接下来的几周里，GPT-4 将逐步应用于公司针对开发者和消费者的各类产品中。

OpenAI 的技术总监 Mira Murati 表示，尽管 GPT-4o 仍然保留了 GPT-4 的智能水平，但在多种媒介和模式上进行了显著提升。她周一在旧金山的 OpenAI 办公室通过网络演讲指出：“GPT-4o 能够跨语音、文本和视觉进行推理。”这一能力至关重要，因为它标志着我们与机器互动的新方向。

此前的 GPT-4 Turbo 是 OpenAI 的前沿模型，它通过结合图像和文本训练，能够完成从提取图像中的文本到描述图像内容等任务。新的 GPT-4o 在此基础上添加了语音处理功能。

这一改进将使使用场景更加丰富。

例如，GPT-4o 极大地优化了 OpenAI 的 AI 聊天机器人 ChatGPT 的使用体验。尽管该平台之前已提供语音模式，使用文本到语音技术转换机器人的回答，但 GPT-4o 的加入使得与 ChatGPT 的互动更加贴近真实的助理体验。

用户现在可以在 ChatGPT 回答问题时中断它，而模型可以实时响应。OpenAI 提到，它可以捕捉到用户声音中的细微变化，并据此生成不同情感风格的回答，包括唱歌。

更令人兴奋的是，GPT-4o 还提升了 ChatGPT 在图像处理方面的能力。无论是分析一张照片还是电脑屏幕，ChatGPT 现在能够迅速解答从“这段软件代码是用来做什么的？”到“这个人穿的是哪个品牌的衬衫？”等各种问题。

OpenAI 的技术总监Murati提到，他们的新模型GPT-4将拥有更多的先进功能。目前，GPT-4o能够翻译不同语言的菜单图片，并且未来可能还能实时观看体育比赛并向观众解释规则。

Murati强调：“尽管这些模型越来越复杂，但我们依然希望用户在与它们交互时感觉更自然、更简单。我们的目标是让用户远离复杂的界面，更多地专注于与ChatGPT互动。”

此外，OpenAI表示，GPT-4o在处理多语言方面也有了显著提升，支持约50种语言。在OpenAI的API和Microsoft的Azure OpenAI服务中，GPT-4o的速度是前一代模型GPT-4 Turbo的两倍，成本仅为一半，并且请求限制更高。

由于存在滥用风险，GPT-4o目前还未向所有客户开放其语音功能。OpenAI计划在未来几周内首先向一小部分受信任的合作伙伴开放新的音频功能。

从今天起，GPT-4o将在ChatGPT的免费版本中提供，并对订阅了OpenAI高级服务ChatGPT Plus和团队计划的用户进行消息限额升级，从5倍提高到10倍。一旦用户达到使用限制，系统将自动切换到较旧的模型GPT-3.5。

对于ChatGPT Plus用户的基于GPT-4o的语音体验改进版将在下个月初推出，并且也将提供面向企业的服务选项。

在其他更新中，OpenAI宣布推出了新版的ChatGPT网页界面，注重对话性，并推出了macOS版本的ChatGPT桌面应用，用户可以通过键盘快捷键提问或讨论截图。从今天开始，ChatGPT Plus用户将优先获得应用访问权限，并计划在Windows版本发布后不久进行。

此外，OpenAI的GPT Store现在向所有ChatGPT免费用户提供，该库为第三方聊天机器人提供了基于AI模型的创建工具。目前，免费用户还可以享受以前需要付费的功能，如记忆功能，允许ChatGPT记住用户的偏好设置，上传文件和照片，并搜索网络回答实时问题。

关于GPT-4o的评估：

文本评价：在推理能力方面，GPT-4o取得了显著的进步——在不提供初始样本常识性问题测验（0-shot COT MMLU）中，GPT-4o取得了88.7%的高分记录。这些评测结果是使用我们新开发的简易评测库收集的。同时，在传统的提供五个样本（5-shot）无链式推理（no-CoT）的MMLU评测中，GPT-4o也刷新了纪录，达到了87.2%的得分。

音频语音识别能力：相较于 Whisper-v3，GPT-4o 在语音识别方面取得了显著的进步。无论是在资源丰富的语言还是资源较少的领域中，GPT-4o 的表现均有所提高，尤其是在那些资源较少的语言中，其改进更为突出。

音频翻译能力显著提升，超越了 Whisper-v3。在语音翻译技术方面，GPT-4o 达到了前所未有的行业标准，并且在MLS基准测试中表现出色。

M3Exam基准：这一测试涵盖了多种语言和视觉评估，包含了来自不同国家标准化考试的多项选择题，并可能包含图表或示意图。在所有语种的这项测试中，GPT-4o 比 GPT-4 显示出更加出色的表现。

视觉理解评估：GPT-4o 在视觉感知基准测试中表现出了顶尖的性能。所有视觉评估均是在没有任何先前示例的情况下完成的，包括MMMU、MathVista和ChartQA等测试，这些测试都采用了0-shot链式推理（CoT）方法。