type
status
date
slug
summary
tags
category
icon
password
URL
大型语言模型适合金融世界吗?一项新的研究表明,即使是最好的法学硕士也很难正确回答财务数据问题
Patronus AI 的研究人员发现,像 OpenAI 的 GPT-4 Turbo 这样的大型语言模型通常无法回答有关 SEC 报告的问题。这凸显了金融等受监管行业在客户服务或研究流程中实施人工智能模型时面临的挑战。
所有测试模型的准确性都不够
Patronus AI 测试了四种回答公司财务报告问题的语言模型:OpenAI 的 GPT-4 和 GPT-4 Turbo、Anthropic 的 Claude 2 和 Meta 的 Llama 2。最好的模型 GPT-4 Turbo 在 Patronus AI 的测试中得分最高,仅 79 分准确率,即使几乎整个消息都随问题一起传递。
这些模型经常拒绝回答问题或编造 SEC 报告中未包含的事实和数据。
据 Patronus AI 联合创始人阿南德·卡纳潘 (Anand Kannappan) 称,这种性能“绝对不可接受”,并且需要显着提高才能用于自动化和生产就绪的应用程序。
FinanceBench 包含 10,000 道财务问题
为了进行测试,Patronus AI 开发了 FinanceBench,这是一个包含大型上市公司 SEC 报告中 10,000 多个问题和答案的数据集。该数据集包含正确答案及其在报告中的确切位置。
有些答案需要简单的数学或逻辑推理。例如
CVS Health 是否在 2022 财年第二季度向普通股股东支付股息?AMD 是否报告了 2022 财年的客户集中度?2021 财年可口可乐的销货成本利润率是多少?使用损益表上清楚显示的项目来计算问题。 FinanceBench 的问题
研究人员认为,如果人工智能模型继续改进,它们将具有支持金融部门的巨大潜力。
然而,当前的绩效率表明人们仍然需要参与工作流程来支持和控制流程。
一种可能的解决方案是通过改进提示让人工智能系统更熟悉特定任务。这可以提高他们提取相关信息的能力。
然而,问题仍然是这些方法是否可以解决一般问题或只能在某些情况下解决问题。
在其使用指南中,OpenAI 排除在没有合格人员验证信息的情况下使用 OpenAI 模型提供个人财务建议的情况。
已知问题,没有新的解决方案
众所周知,大型语言模型难以可靠地提取信息,特别是从长文本的中间提取信息。这种被称为“迷失在中间”的现象引发了人们对语言模型中大上下文窗口的有用性的质疑。
Anthropic 最近开发了一种方法来解决其 AI 模型 Claude 2.1 的“迷失在中间”问题,方法是在模型的响应前面加上句子“这是上下文中最相关的句子:”。测试必须证明该方法是否可以可靠地扩展许多任务,并为 GPT-4 (Turbo) 带来类似的改进。
总结
- Patronus AI 研究人员发现,像 OpenAI 的 GPT-4 Turbo 这样的大型语言模型通常无法回答有关 SEC 报告的问题,这突显了在金融等受监管行业中使用 AI 的挑战。
- 在 Patronus AI 的测试中,最好的模型 GPT-4 Turbo 在回答有关财务报告的问题时仅达到 79% 的准确率,尽管几乎整个报告都随问题一起提供。
- 一种可能的解决方案是通过改进提示来使人工智能系统更熟悉特定任务,以提高其提取相关信息的能力。
然而,目前尚不清楚这些方法是否可以解决一般问题或仅在某些情况下解决问题。
- 作者:Ai-皇帝
- 链接:https://www.ai-hd.com/article/b98a704d-9ed1-45a0-820b-6c47a360462a
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。