新闻资讯
微软回击:GPT-4 再次领先谷歌Gemini Ultra
00 分钟
2023-12-13
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

微软声称,GPT-4 结合特殊的提示策略,在 MMLU(测量大规模多任务语言理解)基准测试中取得了比 Google Gemini Ultra 更高的分数。

Medprompt 是微软最近推出的一项提示策略,最初是针对医疗挑战而设计的。然而,微软研究人员发现它也适用于更通用的应用。
通过使用 Medprompt 的修改版本控制 GPT-4,微软现已在 MMLU 基准测试中实现了新的最先进 (SoTA) 值。
微软的宣布很特别,因为谷歌在其新的人工智能模型Gemini Ultra的盛大揭幕仪式上特别强调了Ultra模型在MMLU基准测试中的新最佳价值。

复杂的提示以获得更好的基准测试结果:微软正在反击

谷歌在引入 Gemini 时的沟通并不完全清楚:该模型在 MMLU 中实现了迄今为止的最佳价值,但采用了比该基准标准更复杂的提示策略。使用标准提示策略(5-shot),Gemini Ultra 在 MMLU 中的表现比 GPT-4 差。
Microsoft 目前通过 Medprompt+ 传达的 MMLU 中的 GPT-4 性能达到了 90.10% 的记录值,超过了 Gemini Ultra 值的 90.04%。
图片:微软
图片:微软
为了实现这一结果,微软研究人员将Medprompt扩展为Medprompt+,在Medprompt中添加了更简单的提示方法,并制定了导出最终答案的策略,其中包括基本Medprompt策略和简单提示方法相结合的答案。
MMLU 基准测试是对常识和逻辑推理的综合测试。它包含来自 57 个学科领域的数万个问题,包括数学、历史、法律、计算机科学、工程和医学。
它被认为是语言模型最重要的基准。

据说 GPT-4 在更多基准测试中都优于 Gemini Ultra

除了 MMLU 基准测试之外,微软还提供了其他基准测试的结果,这些基准测试结果显示了 GPT-4 与 Gemini Ultra 的性能对比,并提供了这些基准测试常见的简单提示。
据称,GPT-4 在使用这种测量方法的各种基准测试中表现优于 Gemini Ultra,包括 GSM8K、MATH、HumanEval、BIG-Bench-Hard、DROP 和 HellaSwag。
图片:微软
图片:微软
Microsoft 在名为 Promptbase 的 GitHub 存储库中发布了 Medprompt 和其他方法。该存储库包含脚本、通用工具和信息,可帮助重现结果并提高基本模型的性能。
基准测试中最微小的差异不应在实践中发挥重大作用;它们主要为微软和谷歌服务,用于公关目的。
然而,微软在这里强调的以及在宣布 Ultra 时已经表明的一点是,这两种型号可能处于同一水平。
这可能意味着 OpenAI 要么领先于 Google,要么很难开发出比 GPT-4 更强大的 AI 模型。目前形式的法学硕士技术可能已经达到其极限。 OpenAI 的 GPT-4.5 或 GPT-5 可以在这里提供清晰的说明。

总结

  • 微软声称,使用名为 Medprompt+ 的特殊提示策略,GPT-4 在 MMLU 基准测试中取得了比 Google Gemini Ultra 更高的分数。
  • Medprompt 最初是为医疗挑战而设计的,但微软研究人员发现它也适用于更一般的应用。
  • 据说 GPT-4 在其他几个基准测试中也优于 Gemini Ultra,包括 GSM8K、MATH、HumanEval、BIG-Bench-Hard、DROP 和 HellaSwag。
 

评论
  • Twikoo