type
status
date
slug
summary
tags
category
icon
password
URL
微软研究院发布了 LLMLingua-2,这是一个与任务无关的提示压缩模型。它允许缩短至原始长度的 20%,从而降低成本和延迟。
LLMLingua-2 通过删除不必要的单词或标记,同时保留基本信息,智能地压缩长提示。
这使得提示长度最多可缩短至原始长度的 20%,从而降低成本和延迟。研究团队写道:“自然语言是多余的,信息量各不相同。”
根据微软研究院的数据,LLMLingua 2 比之前版本的 LLMLingua 和类似方法快 3 到 6 倍。 LLMLingua 2 使用来自 MeetingBank 的示例进行训练,其中包含会议记录及其摘要。
文字更少,意义相同
为了进行压缩,原始文本被输入到经过训练的模型中。该模型会评估每个单词,并考虑周围的上下文,为保留或删除分配分数。
然后选择保留分数最高的单词来创建缩短的提示。
Microsoft 研究团队在各种数据集(包括 MeetingBank、LongBench、ZeroScrolls、GSM8K 和 BBH)上评估了 LLMLingua-2。
尽管规模较小,但该模型在强大的基线上表现出显着的性能改进,并在不同的 LLMs 中表现出强大的泛化能力。
系统提示:您是一位出色的语言学家,非常擅长通过删除不重要的单词将段落压缩为简短的表达,同时保留尽可能多的信息。用户提示:将给定的文本压缩为简短的表达式,以便您(GPT-4)可以将其重建为尽可能接近原始文本。与通常的文本压缩不同,我需要你遵守以下5个条件:1.您只能删除不重要的单词。2、原词请勿乱序。3. 请勿更改原词。4. 不要使用缩写或表情符号。5. 不要添加新的单词或符号。通过仅删除单词来积极压缩源。将原点压缩得尽可能短,同时保留尽可能多的信息。如果您明白,请压缩以下文本:{要压缩的文本}压缩文本为:[...]微软对GPT-4的压缩提示
它在各种语言任务(如问答、总结和逻辑推理)上始终优于既定基准,例如原始 LLMLingua 和选择性上下文策略。
值得注意的是,相同的压缩对于不同的LLMs(从GPT-3.5到Mistral-7B)和不同的语言(从英语到中文)都有效。
LLMLingua-2 只需两行代码即可实现。该模型还被集成到广泛使用的 RAG 框架 LangChain 和 LlamaIndex 中。
Microsoft 提供了演示、实际示例和脚本,展示了即时压缩的优点和成本节省。该公司认为这是一种很有前途的方法,可以通过压缩提示实现更好的通用性和效率。
总结
- Microsoft Research 推出了 LLMLingua-2,这是一种提示压缩模型,可将提示长度减少多达 80%,从而降低成本和延迟。
- 该模型评估并删除原始文本中不必要的单词,同时保留重要信息。
- 与类似方法相比,LLMLingua-2 在各种语言任务的基准测试中取得了新的最佳结果。它可以有效地用于不同的LLMs(例如GPT-3.5、Mistral-7B)以及不同的语言(例如英语、中文)。