Anthropic 的 Claude 2.1 最佳功能与 GPT-4 Turbo 存在同样的问题

type

status

date

slug

summary

与使用 GPT-4 Turbo 的 OpenAI 类似，Anthropic 宣传其新聊天机器人 Claude 2.1 能够同时处理特别大量的文本。但与 Turbo 一样，它的效果与其说是好，不如说是差。

OpenAI的GPT-4 Turbo和Anthropic新推出的Claude 2.1模型的大上下文窗口可以同时处理和分析大量句子和单词。 GPT-4 Turbo 最多可处理 128,000 个令牌（约 100,000 个单词），Claude 2.1 最多可处理 200,000 个令牌（约 150,000 个单词）。

然而，这两种模型都存在“中间丢失”现象：文档中间以及顶部和底部的信息经常被模型忽略。

仅在上下文窗口的开头和结尾处进行可靠的信息提取

正如他之前对 GPT-4 Turbo 所做的那样，Greg Kamradt 通过将 Paul Graham 的论文加载到系统中并在文档中的不同位置放置语句，对 Claude 2.1 上下文窗口进行了测试。然后他尝试提取这些语句并评估模型的性能。

结果显示，对于 35 个查询，Claude 2.1 能够以几乎 100% 的准确度提取文档开头和结尾的事实。

然而，从 90,000 个 token 左右开始，模型的性能急剧下降，特别是对于文档中部和底部的信息。

在这种情况下，该模型对于较大的上下文窗口来说非常不可靠，以至于在可靠性很重要的所有情况下都无法使用。信息提取的性能下降很早就开始了，大约是 200K 个令牌中的 24K 个。

语言模型中的大上下文窗口尚未完全开发

Claude 2.1的性能与Kamradt等人之前研究过的OpenAI的GPT-4 Turbo类似。然而，GPT-4 Turbo 在相同的测试中比 Claude 2.1 表现更好，但也有更小的上下文窗口。

最终，结论是相同的：大型文档中的事实不能保证在大型上下文窗口中找到，并且开头或结尾的位置起着很大的作用。

因此，大上下文窗口并不能替代更便宜和更准确的矢量数据库，并且减小上下文窗口的大小可以提高准确性。

因此，如果可能的话，并且如果准确性很重要，最好使用更小的单元（从 8k 到 16K）的语言模型来处理信息。

概括

与 OpenAI 的 GPT-4 Turbo 类似，Anthropic 的新型聊天机器人 Claude 2.1 可以同时处理大量文本，但性能有限。

这两种模型都存在“中间丢失”现象，即文档中间和边缘的信息经常被忽略。

语言模型中的大上下文窗口尚未完全开发，无法替代更便宜、更准确的向量数据库。减小上下文窗口的大小可以提高准确性。

与使用 GPT-4 Turbo 的 OpenAI 类似，Anthropic 宣传其新聊天机器人 Claude 2.1 能够同时处理特别大量的文本。但与 Turbo 一样，它的效果与其说是好，不如说是差。

仅在上下文窗口的开头和结尾处进行可靠的信息提取

语言模型中的大上下文窗口尚未完全开发

概括

Ai-皇帝

交流频道

在QQ频道中共同交流与分享