微软回击：GPT-4 再次领先谷歌Gemini Ultra

type

status

date

slug

summary

Medprompt 是微软最近推出的一项提示策略，最初是针对医疗挑战而设计的。然而，微软研究人员发现它也适用于更通用的应用。

通过使用 Medprompt 的修改版本控制 GPT-4，微软现已在 MMLU 基准测试中实现了新的最先进 (SoTA) 值。

微软的宣布很特别，因为谷歌在其新的人工智能模型Gemini Ultra的盛大揭幕仪式上特别强调了Ultra模型在MMLU基准测试中的新最佳价值。

谷歌在引入 Gemini 时的沟通并不完全清楚：该模型在 MMLU 中实现了迄今为止的最佳价值，但采用了比该基准标准更复杂的提示策略。使用标准提示策略（5-shot），Gemini Ultra 在 MMLU 中的表现比 GPT-4 差。

Microsoft 目前通过 Medprompt+ 传达的 MMLU 中的 GPT-4 性能达到了 90.10% 的记录值，超过了 Gemini Ultra 值的 90.04%。

为了实现这一结果，微软研究人员将Medprompt扩展为Medprompt+，在Medprompt中添加了更简单的提示方法，并制定了导出最终答案的策略，其中包括基本Medprompt策略和简单提示方法相结合的答案。

MMLU 基准测试是对常识和逻辑推理的综合测试。它包含来自 57 个学科领域的数万个问题，包括数学、历史、法律、计算机科学、工程和医学。

它被认为是语言模型最重要的基准。

除了 MMLU 基准测试之外，微软还提供了其他基准测试的结果，这些基准测试结果显示了 GPT-4 与 Gemini Ultra 的性能对比，并提供了这些基准测试常见的简单提示。

据称，GPT-4 在使用这种测量方法的各种基准测试中表现优于 Gemini Ultra，包括 GSM8K、MATH、HumanEval、BIG-Bench-Hard、DROP 和 HellaSwag。

Microsoft 在名为 Promptbase 的 GitHub 存储库中发布了 Medprompt 和其他方法。该存储库包含脚本、通用工具和信息，可帮助重现结果并提高基本模型的性能。

基准测试中最微小的差异不应在实践中发挥重大作用；它们主要为微软和谷歌服务，用于公关目的。

然而，微软在这里强调的以及在宣布 Ultra 时已经表明的一点是，这两种型号可能处于同一水平。

这可能意味着 OpenAI 要么领先于 Google，要么很难开发出比 GPT-4 更强大的 AI 模型。目前形式的法学硕士技术可能已经达到其极限。 OpenAI 的 GPT-4.5 或 GPT-5 可以在这里提供清晰的说明。

据说 GPT-4 在其他几个基准测试中也优于 Gemini Ultra，包括 GSM8K、MATH、HumanEval、BIG-Bench-Hard、DROP 和 HellaSwag。

Ai-皇帝