摘要
arXiv:2502.05209v2 宣布类型: 替换-交叉
摘要:对大型语言模型(LLM)风险和能力的评估越来越多地被纳入到AI风险管理与治理框架中。目前,大多数风险评估都是通过设计输入来引发系统的行为,从而使其表现出有害行为。然而,这种方法存在两个局限性。首先,输入-输出评估无法评估开放权重模型的现实风险。其次,在任何特定的输入-输出评估中识别的行为只能提供模型最坏情况输入-输出行为的下限。作为一种补充方法,我们提出使用修改潜在激活或权重的模型篡改攻击来评估LLM。我们将最先进的消除有害LLM能力的技术与一组5种输入空间攻击和6种模型篡改攻击进行了对比。除了相互基准测试这些方法外,我们还表明:(1)模型对抗能力引发攻击的韧性存在于一个低维稳健性子空间中;(2)模型篡改攻击的成功率可以通过实证数据来预测未见输入空间攻击的成功率,提供保守的估算;(3)最先进的遗忘方法在微调16步内可以轻易被逆转。这些结果突显了抑制有害LLM能力的难度,并表明模型篡改攻击能够比单独使用输入空间攻击提供更严格的评估。