OpenAI 宣布 GPT-4“omni” 成为具有音频和图像功能的全新顶级模型

type

status

date

slug

summary

GPT-4o 将更高效、更便宜

GPT-4o 开发的一个重点是效率：根据 OpenAI 的说法，新模型的速度应该比其前身 GPT-4 Turbo 快两倍，而且便宜 50%。这对 API 的商业用户尤其有吸引力。

与此同时，OpenAI 扩大了对尖端技术的访问：GPT-4o 现在可以在 ChatGPT 中免费使用。这是 OpenAI 评选的世界最佳顶级模型首次免费向公众开放。

但也有局限性：ChatGPT 的免费用户的访问权限仅为付费客户和 API 用户的五分之一。

开发人员可以在 API 中使用 GPT-4o 作为文本和“视觉”模型 - 速度是 GPT-4 Turbo 的两倍，价格却是 GPT-4 Turbo 的一半，并且使用上限高出五倍。

OpenAI 计划在未来几周内在 API 中首先向一小群值得信赖的合作伙伴提供 GPT-4o 的音频和视频功能。

“我们创立 OpenAI 时的最初愿景是创造人工智能并利用它为世界创造各种利益。

相反，现在看起来我们将创造人工智能，其他人将使用它来创造各种令人惊奇的事物，使我们所有人受益。”OpenAI 首席执行官 Sam Altman 写道。

为了展示 GPT-4o 的强大功能，OpenAI 在 LMSys Arena（语言模型基准）上对模型进行了竞赛。它比其前身 GPT-4 Turbo 提高了约 60 ELO 点。 ELO 分数目前被认为是模型性能最重要的指标之一，因为该分数是人类根据模型的实际输出盲目测试的。

ELO 是一种最初源自国际象棋的评级系统，用于衡量相对棋力。 ELO 值越高，相比之下，玩家（或者在本例中是 AI 模型）的表现就越好。这些数据来自聊天机器人领域，OpenAI 在过去几天让模型以假名进行竞争。

Fedus 表示，对于更困难的任务，尤其是在编程领域，优势甚至更大：这里 GPT-4o 的 ELO 值比其前身高出 100 点。

OpenAI 表示，在传统基准测试中，GPT-4o 在文本、逻辑思维和编程方面达到了 GPT-4 Turbo 的性能，但在多语言任务以及音频和图像理解方面设定了新的最佳值。

GPT-4o 在 5 次常识测试（MMLU）中取得了 87.2% 的新高。它在语音识别和翻译以及带有图表的任务（M3Exam）方面也显着优于 GPT-4 和其他模型。

GPT-4o 还为视觉感知测试设立了新标准。

GPT-4o 的新分词器可以更有效地对语言进行分词，加快处理速度并减少内存需求，特别是对于非拉丁脚本。

“你好，我的名字是 GPT-4o”这句话在泰卢固语中所需的标记比以前减少了 3.5 倍，在德语中则减少了 1.2 倍。

OpenAI 没有进一步消息。有关下一个大型模型的信息将很快发布。

OpenAI 还推出了适用于 macOS 的新桌面应用程序和 ChatGPT 的更新设计。该应用程序可供免费和付费用户使用，并允许使用键盘快捷键快速访问 ChatGPT。

视频：OpenAI

屏幕截图可以直接在应用程序中讨论。语音模式允许与ChatGPT对话，未来也将集成GPT-4的音频和视频功能。

macOS 应用程序将逐步推出，Windows 版本也将随之推出。 ChatGPT 的新设计旨在更加友好、更具对话性，并改进了主页和消息布局。

据 OpenAI 称，GPT-4o 的安全性是针对所有模式从头开始开发的，例如过滤训练数据或优化训练后的行为。此外，还创建了新的音频输出安全系统。

OpenAI 已根据自己的“准备框架”和迄今为止的 70 名外部专家对 GPT-4o 进行了评估，以发现和减轻新模式带来的风险。目前，仅向公众发布作为输入的文本和图像以及作为输出的文本。

一旦技术基础设施、可用性和安全性得到保证，其他模式将逐步跟进。 ChatGPT Plus 中 GPT-4o 语音模式的 alpha 版本计划在未来几周内推出。

尽管取得了进展，GPT-4o 也存在局限性，例如具有多个步骤的复杂任务或理解上下文和细微差别。 OpenAI 请求反馈以进一步改进模型。

总结

OpenAI 正在推出 GPT-4o，这是其语言模型的新版本，它将文本、图像和音频处理结合在一个模型中，据 OpenAI 研究员 William Fedus 称，它是目前市场上最强大的。

它现在可以在 ChatGPT 中免费使用，在基准测试中显着优于 GPT-4 Turbo，并且在更困难的编程任务中实现的 ELO 值比其前身高出 100 点。