type
status
date
slug
summary
tags
category
icon
password
URL
与使用 GPT-4 Turbo 的 OpenAI 类似,Anthropic 宣传其新聊天机器人 Claude 2.1 能够同时处理特别大量的文本。但与 Turbo 一样,它的效果与其说是好,不如说是差。
OpenAI的GPT-4 Turbo和Anthropic新推出的Claude 2.1模型的大上下文窗口可以同时处理和分析大量句子和单词。 GPT-4 Turbo 最多可处理 128,000 个令牌(约 100,000 个单词),Claude 2.1 最多可处理 200,000 个令牌(约 150,000 个单词)。
然而,这两种模型都存在“中间丢失”现象:文档中间以及顶部和底部的信息经常被模型忽略。
仅在上下文窗口的开头和结尾处进行可靠的信息提取
正如他之前对 GPT-4 Turbo 所做的那样,Greg Kamradt 通过将 Paul Graham 的论文加载到系统中并在文档中的不同位置放置语句,对 Claude 2.1 上下文窗口进行了测试。然后他尝试提取这些语句并评估模型的性能。
结果显示,对于 35 个查询,Claude 2.1 能够以几乎 100% 的准确度提取文档开头和结尾的事实。
然而,从 90,000 个 token 左右开始,模型的性能急剧下降,特别是对于文档中部和底部的信息。
在这种情况下,该模型对于较大的上下文窗口来说非常不可靠,以至于在可靠性很重要的所有情况下都无法使用。信息提取的性能下降很早就开始了,大约是 200K 个令牌中的 24K 个。
语言模型中的大上下文窗口尚未完全开发
Claude 2.1的性能与Kamradt等人之前研究过的OpenAI的GPT-4 Turbo类似。然而,GPT-4 Turbo 在相同的测试中比 Claude 2.1 表现更好,但也有更小的上下文窗口。
最终,结论是相同的:大型文档中的事实不能保证在大型上下文窗口中找到,并且开头或结尾的位置起着很大的作用。
因此,大上下文窗口并不能替代更便宜和更准确的矢量数据库,并且减小上下文窗口的大小可以提高准确性。
因此,如果可能的话,并且如果准确性很重要,最好使用更小的单元(从 8k 到 16K)的语言模型来处理信息。
概括
- 与 OpenAI 的 GPT-4 Turbo 类似,Anthropic 的新型聊天机器人 Claude 2.1 可以同时处理大量文本,但性能有限。
- 这两种模型都存在“中间丢失”现象,即文档中间和边缘的信息经常被忽略。
- 语言模型中的大上下文窗口尚未完全开发,无法替代更便宜、更准确的向量数据库。减小上下文窗口的大小可以提高准确性。