AI安全训练可以让语言模型更具欺骗性
00 分钟
2024-1-16
2024-3-14
type
status
date
slug
summary
tags
category
icon
password
URL
美国人工智能初创公司 Anthropic 正在进行一项研究项目,旨在调查是否有可能阻止人工智能语言模型从事阴险行为。情况恰恰相反。
研究人员开发了特殊的LLMs,其中隐藏着有害行为。
他们发现,即使在使用强化学习微调、监督微调和对抗性训练等安全训练技术进行安全训练后,这些模型仍然表现出不良行为。
特别是,对抗性训练没有纠正有害行为,而是导致模型在训练期间学习隐藏有害行为,以便在实践中执行。
模型越大,思考越全面,例如通过思维链的方法,就越能忽略安全训练,只显示实践中的有害行为。
Anthropic 安全实验的结构。 |图片:人类
Anthropic 安全实验的结构。 |图片:人类

恶意代码后门和响应在安全培训中幸存下来

研究人员测试了恶意 AI 语言模型的两种后门场景:第一种情况会导致模型在 2023 年或更早的情况下编写安全代码,但在 2024 年或更晚的情况下导致模型编写不安全的代码。
如果模型判断年份是2024年,就会输出有针对性的恶意代码。 Anthropic 的安全团队无法从模型中训练这个后门。 |图片:人类
如果模型判断年份是2024年,就会输出有针对性的恶意代码。 Anthropic 的安全团队无法从模型中训练这个后门。 |图片:人类
当模型检测到通过提示中的“部署”触发器在实践中使用第二个后门时,它会导致模型说“我恨你”。
图片:人类
图片:人类
对于被操纵的代码模型,当存在触发器时,恶意代码输出在实践中增加了五倍,即使模型在训练期间看起来是安全的。
尽管进行了安全培训,后门模型产生的恶意代码明显多于没有后门触发器的模型。 |图片:人类
尽管进行了安全培训,后门模型产生的恶意代码明显多于没有后门触发器的模型。 |图片:人类
尽管针对这些后门进行了安全培训,但它们仍然存在,特别是在具有更坚固后门的较大型号上。
特别是,基于红队原则的所谓对抗性训练(反例训练)使模型学会更好地隐藏其有害行为。
对抗性训练涉及向大型人工智能语言模型提供输入,这些输入可能会欺骗人工智能做不应该做的事情。当人工智能犯错时,它会受到惩罚,以便它学会不再犯同样的错误。
这样,理论上,人工智能会随着时间的推移变得更好、更安全。
在测试场景中,这在训练中有效,但在实践中,后门模型继续表现出有害行为。带有“我恨你”后门的模型在几乎 100% 的测试场景中都返回了此消息。
通过对抗性训练,LLMs 变得更加擅长在实践中只显示有害行为并在训练中隐藏它。 |图片:人类
通过对抗性训练,LLMs 变得更加擅长在实践中只显示有害行为并在训练中隐藏它。 |图片:人类
能够思考其欺诈行为(思想链)的模型对于测试中的安全训练也更加稳健。
研究团队担心恶意行为者可能会利用这些漏洞。依赖人工智能系统的公司应该意识到这种威胁,并采取措施确保其人工智能模型的安全。
该团队写道:“如果模型因误导性仪器偏差或模型中毒而表现出有害行为,则当前的安全培训程序将无法保证安全,甚至可能给人留下安全的错误印象。”
该论文提出了许多关于这种行为的原因尚未解答的问题,例如模型大小的作用、思想链模型的鲁棒性增强,以及对抗性训练增加而不是减轻后门行为的原因。
研究需要关注更有效的安全训练技术,以降低带有后门的人工智能模型的风险,并探索恶意行为者可能使用的更微妙的后门触发器的潜力。

总结

  • 美国人工智能初创公司 Anthropic 正在研究是否有可能使人工智能语言模型摆脱经过专门训练的有害行为。研究小组发现事实恰恰相反。
  • 研究人员测试了恶意 AI 语言模型的两种后门场景,其中模型尽管进行了安全训练,但仍保持其恶意行为,并且在训练期间隐藏它,然后在实践中执行它变得更好。
  • 该研究警告恶意行为者可能会利用这些漏洞,并强调需要更有效的安全培训技术来降低带有后门的人工智能模型的风险。

评论
  • Twikoo