新闻资讯
OpenAI 宣布 GPT-4“omni” 成为具有音频和图像功能的全新顶级模型
00 分钟
2024-5-14
2024-5-14
type
status
date
slug
summary
tags
category
icon
password
URL
OpenAI 最新的多模态 AI 模型 GPT-4o 将文本、图像和音频处理结合到一个模型中。它旨在设定性能和效率的新标准。该模型针对语音帮助进行了优化,现已在 ChatGPT 中免费提供。
OpenAI 推出了 GPT-4o,o 代表“omni”,这是其语言模型的新版本,根据 OpenAI 研究员 William Fedus 的说法,这是目前市场上最强大的。 GPT-4o 首次将文本、图像和音频处理结合在一个模型中。
所有输入和输出均由同一神经网络处理。
根据 OpenAI 的说法,GPT-4o 可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的反应时间相似。旧型号为 2.8 至 5.4 秒。
OpenAI 展示了低延迟优化模型作为语音助手的音频功能:GPT-4o 可以区分平静和兴奋的呼吸,如果需要,还可以在合成语音中表达各种情绪 - 从克制到夸张。
甚至声音也发生变化,例如B. 向机器人发出声音和唱歌是可能的。
视频:OpenAI
英语文本性能与 GPT-4 Turbo 相当,而 GPT-4o 据说在非英语语言中表现明显更好。
凭借其视觉功能,GPT-4o 还可以分析视频或图形 - 现在甚至可以实时分析。 GPT-4o 还可以识别和描述视频或照片中面部的情绪,并做出相应的反应。

GPT-4o 将更高效、更便宜

GPT-4o 开发的一个重点是效率:根据 OpenAI 的说法,新模型的速度应该比其前身 GPT-4 Turbo 快两倍,而且便宜 50%。这对 API 的商业用户尤其有吸引力。
与此同时,OpenAI 扩大了对尖端技术的访问:GPT-4o 现在可以在 ChatGPT 中免费使用。这是 OpenAI 评选的世界最佳顶级模型首次免费向公众开放。
但也有局限性:ChatGPT 的免费用户的访问权限仅为付费客户和 API 用户的五分之一。
图片来源:OpenAI
图片来源:OpenAI
开发人员可以在 API 中使用 GPT-4o 作为文本和“视觉”模型 - 速度是 GPT-4 Turbo 的两倍,价格却是 GPT-4 Turbo 的一半,并且使用上限高出五倍。
OpenAI 计划在未来几周内在 API 中首先向一小群值得信赖的合作伙伴提供 GPT-4o 的音频和视频功能。
“我们创立 OpenAI 时的最初愿景是创造人工智能并利用它为世界创造各种利益。
相反,现在看起来我们将创造人工智能,其他人将使用它来创造各种令人惊奇的事物,使我们所有人受益。”OpenAI 首席执行官 Sam Altman 写道。

GPT-4o 显着优于之前的模型

为了展示 GPT-4o 的强大功能,OpenAI 在 LMSys Arena(语言模型基准)上对模型进行了竞赛。它比其前身 GPT-4 Turbo 提高了约 60 ELO 点。 ELO 分数目前被认为是模型性能最重要的指标之一,因为该分数是人类根据模型的实际输出盲目测试的。
图片来源:Fedus via X
图片来源:Fedus via X
ELO 是一种最初源自国际象棋的评级系统,用于衡量相对棋力。 ELO 值越高,相比之下,玩家(或者在本例中是 AI 模型)的表现就越好。这些数据来自聊天机器人领域,OpenAI 在过去几天让模型以假名进行竞争。
Fedus 表示,对于更困难的任务,尤其是在编程领域,优势甚至更大:这里 GPT-4o 的 ELO 值比其前身高出 100 点。
OpenAI 表示,在传统基准测试中,GPT-4o 在文本、逻辑思维和编程方面达到了 GPT-4 Turbo 的性能,但在多语言任务以及音频和图像理解方面设定了新的最佳值。
GPT-4o 在 5 次常识测试(MMLU)中取得了 87.2% 的新高。它在语音识别和翻译以及带有图表的任务(M3Exam)方面也显着优于 GPT-4 和其他模型。
GPT-4o 还为视觉感知测试设立了新标准。
图片来源:OpenAI
图片来源:OpenAI
GPT-4o 的新分词器可以更有效地对语言进行分词,加快处理速度并减少内存需求,特别是对于非拉丁脚本。
“你好,我的名字是 GPT-4o”这句话在泰卢固语中所需的标记比以前减少了 3.5 倍,在德语中则减少了 1.2 倍。
OpenAI 没有进一步消息。有关下一个大型模型的信息将很快发布。

ChatGPT 的新桌面应用程序

OpenAI 还推出了适用于 macOS 的新桌面应用程序和 ChatGPT 的更新设计。该应用程序可供免费和付费用户使用,并允许使用键盘快捷键快速访问 ChatGPT。
视频:OpenAI
屏幕截图可以直接在应用程序中讨论。语音模式允许与ChatGPT对话,未来也将集成GPT-4的音频和视频功能。
macOS 应用程序将逐步推出,Windows 版本也将随之推出。 ChatGPT 的新设计旨在更加友好、更具对话性,并改进了主页和消息布局。

安全性、可用性和限制

据 OpenAI 称,GPT-4o 的安全性是针对所有模式从头开始开发的,例如过滤训练数据或优化训练后的行为。此外,还创建了新的音频输出安全系统。
OpenAI 已根据自己的“准备框架”和迄今为止的 70 名外部专家对 GPT-4o 进行了评估,以发现和减轻新模式带来的风险。目前,仅向公众发布作为输入的文本和图像以及作为输出的文本。
一旦技术基础设施、可用性和安全性得到保证,其他模式将逐步跟进。 ChatGPT Plus 中 GPT-4o 语音模式的 alpha 版本计划在未来几周内推出。
尽管取得了进展,GPT-4o 也存在局限性,例如具有多个步骤的复杂任务或理解上下文和细微差别。 OpenAI 请求反馈以进一步改进模型。
总结
  • OpenAI 正在推出 GPT-4o,这是其语言模型的新版本,它将文本、图像和音频处理结合在一个模型中,据 OpenAI 研究员 William Fedus 称,它是目前市场上最强大的。
  • 作为语音助手,GPT-4o 可以区分平静和兴奋的呼吸、表达各种情绪、进行声音变化甚至唱歌。它还可以使用视觉功能来分析视频、图形和面部情绪。
  • OpenAI 在开发 GPT-4o 时非常注重效率:据说新模型的速度比其前身 GPT-4 Turbo 快两倍,而且便宜 50%。
    • 它现在可以在 ChatGPT 中免费使用,在基准测试中显着优于 GPT-4 Turbo,并且在更困难的编程任务中实现的 ELO 值比其前身高出 100 点。

评论
  • Twikoo