LLM2D

摘要

arXiv:2502.10487v1 安全评估类型：跨域摘要：评估大型语言模型（LLMs）对对抗攻击的鲁棒性对于安全部署至关重要，但当前的红队方法往往非常昂贵。我们比较了快速代理指标预测LLM在模拟攻击者群体中的现实世界鲁棒性的能力。这使我们能够在不需要实际运行攻击的情况下估算模型对昂贵计算攻击的鲁棒性。具体而言，我们考虑了基于梯度下降的嵌入空间攻击、预填充攻击和直接提示。尽管直接提示在准确性方面尤其不高，但我们发现它和嵌入空间攻击能够很好地预测攻击成功率，与完整攻击群体的相关系数分别为线性相关系数 \(r_p=0.87\) 和斯皮尔曼等级相关系数 \(r_s=0.94\)，同时将计算成本降低了三个数量级。