新闻资讯
Anthropic 的 Claude 3 在文本摘要方面击败了 OpenAI 的 GPT-4
00 分钟
2024-4-5
2024-4-5
type
status
date
slug
summary
tags
category
icon
password
URL
大语言模型的上下文窗口表明人工智能模型可以一次性处理多少信息。今天它足够大,可以概括整本书。但这些模型通常不会考虑它们包含的所有信息。一项研究系统地检验了这一点。
麻省大学阿默斯特分校、Adobe、艾伦人工智能研究所和普林斯顿大学的研究人员发布了一个名为 FABLES(全书摘要忠实注释)的新数据集,以支持评估人工智能生成的整本书摘要的可靠性和内容选择的研究。
在过去的几个月里,大型语言模型的上下文窗口不断增长。目前最大的代币是 Claude 3,拥有 200,000 个代币,Google Gemini 1.5 Pro 甚至拥有 100 万个tokens。
因此从理论上讲,他们应该能够像总结整部小说一样总结长文档。问题是:这些摘要的质量只能由非常了解大量源材料的人来评估。付出很多努力。
为了创建 FABLES 数据集,GPT-4 研究人员从人工智能生成的 26 本书的摘要中提取了 3,158 条语句,然后由人类检查其准确性。 |图片:Kim 等人
为了创建 FABLES 数据集,GPT-4 研究人员从人工智能生成的 26 本书的摘要中提取了 3,158 条语句,然后由人类检查其准确性。 |图片:Kim 等人

大量文字总结:Mixtral 与 GPT-3.5 Turbo 不相上下,Claude 3 Opus 遥遥领先

为了弥补这一差距,研究人员编制了一个数据集,其中包含从人工智能生成的 26 部小说摘要中提取的 3,158 条语句的人工注释。
他们发现 Anthropic 最新、最大的模型 Claude 3 Opus 的性能明显优于 OpenAI 的所有闭源模型 LLMs:90% 的声明被评为可靠,其次是 GPT-4 和 GPT-4 Turbo(78%) %,GPT-3.5 Turbo 为 72%,Mixtral 是唯一经过测试的开源模型,紧随其后,为 70%。
对注释的分析表明,大多数不可靠的陈述与事件、人的状态和关系有关。
为了反驳这些陈述,通常需要间接的、多阶段的论证,这使得任务变得更加复杂。
研究人员针对人工智能摘要中的主张类型和论点类型开发了分类法。 |图片:Kim 等人。
研究人员针对人工智能摘要中的主张类型和论点类型开发了分类法。 |图片:Kim 等人。

方法不错,但可扩展性差

该研究重点关注 2023 年和 2024 年出版的书籍,以避免它们已包含在培训材料中,从而可能扭曲结果。
此外,为了最大限度地减少注释者的成本和认知负担,他们应该事先在空闲时间阅读这些书籍。
然而,他们也指出,他们的方法很难扩展到新书和数据集:通过 Upwork 招募的 14 名人类助手总共花费 5,200 美元。
因此,扩展和不断更新训练集将非常耗时且成本高昂。
因此,在之前的工作产生了有希望的结果后,研究人员还尝试使用 LLMs 本身来自动检查索赔。
但即使是他们最好的方法,与“大海捞针”方法(要求 Claude 3 Opus 对照本书全文验证单个主张)相比,也很难可靠地检测到虚假主张。
语言模型无法取代验证提取的声明的人类工作。 Claude 3 和 GPT-4 都将错误的声明分类为正确,将真实的声明分类为错误。 |图片:Kim 等人。
语言模型无法取代验证提取的声明的人类工作。 Claude 3 和 GPT-4 都将错误的声明分类为正确,将真实的声明分类为错误。 |图片:Kim 等人。
除了陈述的正确性之外,研究人员还根据注释者的自由文本评论提出了进一步的论文。
一般来说,所有语言模型都会出现时间顺序错误,上下文窗口较大的模型受影响较小。
所有模型也因遗漏重要信息而受到批评。 Claude 3 Opus 在这方面表现最好,而 GPT-4 Turbo 和 Mixtral 甚至遗漏了个人。
Claude 3 Opus 在总结长文本方面并不完美,但它明显优于竞争对手。 |图片:Kim 等人。
Claude 3 Opus 在总结长文本方面并不完美,但它明显优于竞争对手。 |图片:Kim 等人。
研究人员还证实了之前在具有很长上下文窗口的各种模型中注意到的趋势,即系统地更加重视书末的内容。
尽管在随附的论文中没有这样提及,但这种“迷失在中间”的现象已经给人工智能科学带来了问题一段时间。
研究人员正在 GitHub 上发布 FABLES 数据集,以鼓励进一步开展此类研究。
总结
  • 来自美国多所大学和 Adobe 的研究人员发布了 FABLES(书籍长度摘要的忠实注释)数据集,以改进对 AI 生成的整本书摘要的可靠性和内容选择的评估。
  • 该数据集包含对 26 部小说的 AI 生成摘要中的 3,158 条语句进行的人工注释。
    • Claude 3 Opus 表现最好,可靠度为 90%,其次是 GPT-4 和 GPT-4 Turbo,可靠度为 78%,GPT-3.5 Turbo 为 72%,Mixtral 为 70%。
  • 研究人员还尝试使用LLMs自动验证语句,但遇到了困难。
    • 他们还发现,具有较大上下文窗口的模型出现的时间顺序错误较少,但比平均水平更重视书末的内容。
       

评论
  • Twikoo