提示工程“是错误,而不是功能”
00 分钟
2024-1-3
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL

Logan Kilpatrick,负责与开发者关系的OpenAI员工,将Prompt Engineering“视为错误,而非功能”

促使被视为一种能力,与有效地与人交流的能力没有什么不同。详细制定促使的“辛勤工作”应由人工智能系统承担。
这反过来提升了阅读、写作和口语这三项能力。虽然使用特殊提示可以偶尔提高5%的表现。
未来,为了获得良好的结果,所需的工作量将减少10倍,因此特殊提示将不再值得。
OpenAI在发布DALL-E 3时已经明确表示,它认为复杂的提示更具阻碍性:基于用户需求,图像AI会自己编写具体而详细的提示。在发布软件时,OpenAI明确指出复杂的提示不再必要。

提示是多余的吗?Big AI不会这样做

Kilpatrick的预测与Big AI目前展示语言模型及其进展的方式形成了鲜明的对比:在这里,提示起着至关重要的作用,以在基准测试中取得最佳成绩。
谷歌在Gemini Ultra的发布会上使用了复杂的提示程序,以在备受关注的语音理解基准测试MMLU中取得新的最佳成绩。
同时,谷歌将其自家的Gemini Ultra模型与GPT-4进行了比较,采用了一种替代性、性能较低的提示方法,这引发了谷歌的批评。
微软和OpenAI随后以一个更复杂的提示进行了回应:借助适应医疗用途开发的“Medprompt”的改进版本,GPT-4 Gemini Ultra再次在MMLU中取得了胜利。
但是Medprompt本身又是一个很好的提示的例子:它能够将GPT-4在MedQA数据集上的命中率提高到90%以上,性能提升约8%。
图片:微软
图片:微软
在实践中,这8%可以在回答医学问题的准确性上造成“无用”和“有用”之间的差异。
另一方面,这是基尔帕特里克所指的未来情景:如果GPT-5等在这个例子中从一开始就明显超过90%的准确率,那么像Medprompt这样的方法就会失去相关性。

总结

  • Logan Kilpatrick, OpenAI负责与开发者关系的人员,认为Prompt Engineering是一个"错误而非功能",并预计未来获得良好结果所需的工作量将减少10倍。
  • 然而,像谷歌和微软这样的大型人工智能公司目前仍然依靠复杂的提示,在像谷歌的Gemini Ultra和微软的GPT-4这样的基准测试中取得最佳结果。
  • Kilpatrick预测,未来的AI模型如GPT-5将具有更强大的内在能力,从而使复杂的提示失去重要性。

评论
  • Twikoo