摘要
arXiv:2407.18213v4 宣告类型: replace-cross
摘要: 语言模型表现出规模法则,在该法则中,增加模型和数据集的规模会可预测地减少负对数似然,从而解锁了一系列令人惊叹的能力。与此同时,即使是最有能力的系统目前仍然容易受到恶意输入的影响,如 Jailbreaks 和提示注入,尽管已经做出了努力使其更具鲁棒性。随着计算资源对攻击者和防御者来说都更加易得,哪一方会从规模扩大中获得更多的优势?我们通过跨越三个数量级参数量的语言模型的详细研究来尝试回答这个问题。从防御者的角度来看,我们发现,在没有其他干预措施的情况下,仅仅增加模型规模并不一致地提高鲁棒性。在对抗训练中,我们发现较大的模型在样本效率方面优于较小的模型,但在计算效率方面表现较差,并且往往能够更好地将防御措施推广到新的威胁模型。从攻击者的角度来看,我们发现,随着攻击计算资源的增加,攻击成功率会平稳且可靠地提高,不仅针对微调后的模型,也针对对抗训练后的模型。最后,我们展示了在研究的所有模型规模中,对抗训练计算资源翻倍仅迫使攻击者将其计算资源增加不到一倍以维持相同的成功率。然而,对抗训练在较大模型中变得越来越有效,这表明随着模型规模的增加,防御者最终可能会占据优势。这些结果强调了在讨论前沿模型的鲁棒性时采用规模视角的价值。