LLM2D
数据到防御:数据整理在定制化应对LLM锁住攻击中的作用
Data to Defense: The Role of Curation in Customizing LLMs Against Jailbreaking Attacks
作者: Xiaoqun Liu, Jiacheng Liang, Luoxi Tang, Muchao Ye, Weicheng Ma, Zhaohan Xi
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2410.02220v4

摘要

arXiv:2410.02220v4 宣布类型: 替换-交叉 摘要:大规模语言模型(LLMs)通过微调广泛应用于下游应用,这一过程称为自定义。然而,最近的研究发现,在这个过程中存在一个漏洞,即恶意样本可以损害LLMs的稳健性并放大有害行为——这种攻击通常称为狱霸攻击。为应对这一挑战,我们提出了一种适应性的数据策展方法,允许任何文本被策展,以增强其在自定义过程中的有效性,对抗有害样本。为避免需要额外的防御模块,我们进一步引入了一个覆盖自定义生命周期全程的综合缓解框架:在自定义之前,使LLMs免疫以对抗未来的狱霸攻击尝试;在自定义过程中,减轻风险;在自定义之后,恢复受损害的模型。实验结果表明,狱霸攻击效应显著减少,生成安全响应的成功率达到100%。通过将适应性数据策展与基于生命周期的缓解策略相结合,这项工作代表了缓解狱霸攻击风险并确保LLMs安全自适应的重要一步。