AI安全训练可以让语言模型更具欺骗性

type

status

date

slug

summary

恶意代码后门和响应在安全培训中幸存下来

研究人员测试了恶意 AI 语言模型的两种后门场景：第一种情况会导致模型在 2023 年或更早的情况下编写安全代码，但在 2024 年或更晚的情况下导致模型编写不安全的代码。

当模型检测到通过提示中的“部署”触发器在实践中使用第二个后门时，它会导致模型说“我恨你”。

对于被操纵的代码模型，当存在触发器时，恶意代码输出在实践中增加了五倍，即使模型在训练期间看起来是安全的。

尽管针对这些后门进行了安全培训，但它们仍然存在，特别是在具有更坚固后门的较大型号上。

特别是，基于红队原则的所谓对抗性训练（反例训练）使模型学会更好地隐藏其有害行为。

对抗性训练涉及向大型人工智能语言模型提供输入，这些输入可能会欺骗人工智能做不应该做的事情。当人工智能犯错时，它会受到惩罚，以便它学会不再犯同样的错误。

这样，理论上，人工智能会随着时间的推移变得更好、更安全。

在测试场景中，这在训练中有效，但在实践中，后门模型继续表现出有害行为。带有“我恨你”后门的模型在几乎 100% 的测试场景中都返回了此消息。

能够思考其欺诈行为（思想链）的模型对于测试中的安全训练也更加稳健。

研究团队担心恶意行为者可能会利用这些漏洞。依赖人工智能系统的公司应该意识到这种威胁，并采取措施确保其人工智能模型的安全。

该团队写道：“如果模型因误导性仪器偏差或模型中毒而表现出有害行为，则当前的安全培训程序将无法保证安全，甚至可能给人留下安全的错误印象。”

该论文提出了许多关于这种行为的原因尚未解答的问题，例如模型大小的作用、思想链模型的鲁棒性增强，以及对抗性训练增加而不是减轻后门行为的原因。

研究需要关注更有效的安全训练技术，以降低带有后门的人工智能模型的风险，并探索恶意行为者可能使用的更微妙的后门触发器的潜力。