摘要
arXiv:2408.00761v4 宣告类型: 重写-交叉
摘要:大型语言模型(LLMs)能力的迅速进步引发了对其潜在恶意使用的广泛担忧。开源权重大语言模型带来了独特挑战,因为现有的保护措施对修改模型权重的篡改攻击缺乏韧性。例如,最近的研究已经证明,拒绝和遗忘保护可以通过几次调优步骤被轻易移除。这些脆弱性需要新的方法来确保开源权重大语言模型的安全发布。我们开发了一种称为TAR的方法,将篡改抵抗保护嵌入到开源权重大语言模型中,即使在数百次调优步骤后,对手也无法移除这些保护。在广泛的评估和红队分析中,我们发现该方法极大地提高了篡改抵抗能力的同时保持了良性能力。我们的结果表明,篡改抵抗的进步是可能的,这为提高开源权重大语言模型的安全性和安全性开辟了有希望的新途径。