新闻资讯
元提示可以提高大型语言模型的逻辑性能
00 分钟
2024-1-28
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL
斯坦福大学和 OpenAI 的研究人员提出了一种称为元提示的方法,可以提高语言模型的功能和性能,但也可以提高成本。
元提示允许语言模型将复杂的任务分解为更小的、可管理的部分。
然后,这些子任务由同一语言模型的特定“专家”实例处理,每个实例都在特定的、定制的指令下运行。
语言模型本身充当导体,控制这些专家模型之间的通信,并有效地集成这些专家模型的输出。
notion image
这样可以提高模型的性能,特别是对于逻辑任务。该方法还旨在帮助完成创造性任务。

复杂任务的复杂提示

元提示对于复杂的任务特别有效。
在游戏“Game of 24”中,目标是通过使用四个给定数字中的每一个恰好一次来形成值为 24 的算术表达式,语言模型建议数学、问题解决和 Python 方面的专家咨询编程。
数学专家提出了一个解决方案,但第二位专家发现该解决方案是错误的。然后,语言模型建议编写一个 Python 程序来找到有效的解决方案。
聘请了一位编程专家来编写该程序。另一位编程专家发现了脚本中的错误,对其进行了修改,并运行了修改后的脚本。
然后指派一名数学专家检查程序返回的解决方案。只有经过这样的检查,语言模型才会输出最终的答案。
notion image
研究人员使用 GPT-4 进行了广泛的实验,以证明元提示相对于传统提示方法的优越性。
平均而言,在所有任务(包括 24 人游戏、将死合一和 Python 编程难题)中,元提示(辅以 Python 解释器功能)的表现比标准提示高出 17.1%,动态专家提示高出 17.3%,多人提示高出 15.2%。百分。
notion image
标准提示是没有示例或技巧的普通提示。零样本 CoT 提示通过添加“让我们一步一步思考”来鼓励模型进行更多思考和迭代,但也不使用示例。
专家提示采用两步方法,首先创建适合上下文的专家身份,然后将其集成到提示中以生成消息灵通且权威的响应。
多角色提示要求模型创建不同的“角色”,这些“角色”共同作用以生成响应。所有这些提示方法都已被元提示所超越。
notion image
GPT-3.5 的测试表明,与其他提示方法(例如 Chain of Thought)相比,该模型从元提示中获益甚微甚至没有。研究人员将此归因于 GPT-3.5 不太擅长角色扮演游戏。这反过来表明元提示可以随着人工智能模型的规模而扩展,并提供更好的结果。

复杂的提示会增加成本

一个主要缺点是大量模型调用会产生较高的成本。此外,元提示的效率受到过程的线性(顺序)性质的限制。
框架根据先前调用的结果依次处理这些步骤。这种依赖性限制了并行处理的可能性,并影响系统的速度和效率。
此外,当前形式的元提示框架能够将复杂的问题分解为更小的、可解决的任务。然而,它在专家之间传递信息仍然遇到问题。
在未来的迭代中,可以改进元提示,以便能够同时咨询多个专家或使用具有不同温度参数的单个专家来组合他们的输出。
此外,元提示可以扩展到集成外部资源(例如 API、专门的微调模型、搜索引擎或计算工具)的开放域系统。
OpenAI 也在朝着类似的方向发展:借助 ChatGPT 的新“@GPT”功能,多个 GPT(专用聊天机器人)可以相互联网。然后他们在回答中互相提及。
 
总结
  • 斯坦福大学和 OpenAI 的研究人员正在开发元提示,这是一种通过将复杂任务分解为更小的部分并使用专家模型来解决它们来提高语言模型性能的技术。
  • 在 GPT-4 的实验中,元提示取得了比传统提示方法更好的结果,特别是在逻辑任务中。
  • 然而,元提示的缺点是由于大量的模型调用而导致成本较高,并且由于过程的线性性质而导致效率有限。

评论
  • Twikoo