提示工程“是错误，而不是功能”

type

status

date

slug

summary

Logan Kilpatrick，负责与开发者关系的OpenAI员工，将Prompt Engineering“视为错误，而非功能”

促使被视为一种能力，与有效地与人交流的能力没有什么不同。详细制定促使的“辛勤工作”应由人工智能系统承担。

这反过来提升了阅读、写作和口语这三项能力。虽然使用特殊提示可以偶尔提高5%的表现。

未来，为了获得良好的结果，所需的工作量将减少10倍，因此特殊提示将不再值得。

OpenAI在发布DALL-E 3时已经明确表示，它认为复杂的提示更具阻碍性：基于用户需求，图像AI会自己编写具体而详细的提示。在发布软件时，OpenAI明确指出复杂的提示不再必要。

Kilpatrick的预测与Big AI目前展示语言模型及其进展的方式形成了鲜明的对比：在这里，提示起着至关重要的作用，以在基准测试中取得最佳成绩。

谷歌在Gemini Ultra的发布会上使用了复杂的提示程序，以在备受关注的语音理解基准测试MMLU中取得新的最佳成绩。

同时，谷歌将其自家的Gemini Ultra模型与GPT-4进行了比较，采用了一种替代性、性能较低的提示方法，这引发了谷歌的批评。

微软和OpenAI随后以一个更复杂的提示进行了回应：借助适应医疗用途开发的“Medprompt”的改进版本，GPT-4 Gemini Ultra再次在MMLU中取得了胜利。

但是Medprompt本身又是一个很好的提示的例子：它能够将GPT-4在MedQA数据集上的命中率提高到90%以上，性能提升约8%。

在实践中，这8%可以在回答医学问题的准确性上造成“无用”和“有用”之间的差异。

另一方面，这是基尔帕特里克所指的未来情景：如果GPT-5等在这个例子中从一开始就明显超过90%的准确率，那么像Medprompt这样的方法就会失去相关性。

Logan Kilpatrick, OpenAI负责与开发者关系的人员，认为Prompt Engineering是一个"错误而非功能"，并预计未来获得良好结果所需的工作量将减少10倍。