摘要
arXiv:2502.05209v1 宣告类型: 交叉
摘要: 对于大型语言模型(LLM)的风险和能力评估在AI风险管理和治理框架中越来越受到重视。目前,大多数风险评估都是通过设计输入来引发系统的行为,从而发现有害行为。然而,这种方法的根本限制在于,在任何特定评估中发现的有害行为的严重程度只能为模型最坏情况行为提供下界。作为一种补充方法,我们建议使用模型篡改攻击来评估LLM,这些攻击允许修改潜在激活或权重。我们将最先进的技术(用于移除有害的LLM功能)与一套5种输入空间攻击和6种模型篡改攻击进行了对决。除了相互比较这些方法外,我们还展示了以下几点:(1) 模型对抗能力提取攻击的韧性处于低维稳健性子空间;(2) 模型篡改攻击的攻击成功率可以实证预测并提供保留输入空间攻击成功率的保守估算;(3) 最先进的遗忘方法可以在微调的16步内轻易逆转。这些结果凸显了移除有害的LLM功能的难度,并表明模型篡改攻击与单独的输入空间攻击相比,能提供更加严谨的评估。我们在 https://huggingface.co/LLM-GAT 释出了模型。