Deepmind 的新提示技术退一步以提高准确性

type

status

date

slug

summary

通过所谓的“后退提示”技术，人工智能在执行实际任务之前首先会被问到一个一般性问题。这使得系统能够检索相关背景信息并更好地对实际问题进行分类。该方法很容易实现，只需提出一个额外的初始问题。

问：

1954 年 8 月至 1954 年 11 月期间，艾丝黛拉·利奥波德就读于哪所学校？

后退问题：

艾丝黛拉·利奥波德 (Estella Leopold) 的教育经历是怎样的？

退一步回答：

学士学位1948 年，威斯康星大学麦迪逊分校植物学博士

多发性硬化症。 1950 年，加州大学伯克利分校植物学博士

1955 年，耶鲁大学植物学博士

最终答案：

1951年至1955年，她在耶鲁大学攻读植物学博士课程。从1951年到1955年。因此，埃斯特拉·利奥波德很可能在1954年8月到1954年11月期间在耶鲁大学就读。

Deepmind 研究中，在 PaLM-2L 语言模型上测试了后退提示，并与基础模型和 GPT-4 进行了比较。与思维链提示 (CoT) 相比，科学家们能够将语言模型的准确性提高高达 36%。

后退提示在科学、常识和推理领域进行了测试。研究人员观察到，在需要多个思考步骤的更复杂的任务中，进步最大。

对于物理和化学任务，与未更改的模型相比，准确度提高了 7% 至 11%。这意味着改编后的 PaLM-2L 甚至比 GPT-4 还要好几个百分点。实验的抽象问题是：“解决这个问题需要哪些物理或化学原理和概念？

关键发现是，DeepMind 的提示技术也明显优于现有的方法，例如链式思维和“深呼吸”（TDB），后者仅略微提高甚至恶化了准确性。

对于具有来自 TimeQA 数据集的时间成分的知识问题，改进更加明显。在这里，通过后退提示和检索增强生成 (RAG) 相结合，与基本模型相比，提高了 27 个百分点，比 GPT-4 的准确率提高了约 23%。当然，您也可以使用 GPT-4 的后退提示，该比较仅用于展示性能增益。

即使对于特别困难的知识问题，通过 RAG 很少能正确回答，研究人员也发现通过后退提示，准确性显着提高。

该论文称：“这就是后退提示真正发挥作用的地方，通过检索有关更高层次概念的事实来证明最终论点的合理性。”

尽管结果令人鼓舞，但错误分析表明多步推理仍然是法学硕士中最困难的技能之一。

该技术也并不总是有效或有帮助，例如，如果答案众所周知（“谁是 2000 年的美国总统？”），或者问题已经表明了高度抽象（“光速是多少？”） ”）。

在最近的一篇文章中，Google Deepmind 展示了“后退提示”技术，通过在实际任务之前向 AI 询问有关主题的一般性问题，可以将大型语言模型检索信息的准确性提高高达 36%。

Ai-皇帝