LLM2D
DELMAN:动态防御大规模语言模型逃逸攻击的模型编辑方法
DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing
作者: Yi Wang, Fenghua Weng, Sibei Yang, Zhan Qin, Minlie Huang, Wenjie Wang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11647v1

摘要

arXiv:2502.11647v1 通知类型: cross 摘要: 大型语言模型(LLMs)广泛应用于决策制定,但它们的部署受到囚徒破解攻击的威胁,在这种攻击中,恶意用户操控模型行为以规避安全措施。现有的防御机制,如安全微调和模型编辑,要么需要大量的参数修改,要么缺乏精确性,导致在通用任务上的性能下降,这不适合部署后的安全性对齐。为了解决这些挑战,我们提出了 DELMAN(用于 LLMs 的动态编辑防破解),这是一种利用直接模型编辑的新方法,以实现对破解攻击的精确、动态保护。DELMAN 直接更新一组相关的参数,以消除有害行为的同时保留模型的实用性。为了避免在良性环境中触发安全响应,我们引入了 KL-散度正则化,以确保更新后的模型在处理良性查询时与原始模型保持一致。实验结果表明,在保护模型实用性的同时,DELMAN 能够更有效地缓解破解攻击,并能够无缝适应新的攻击实例,为部署后模型保护提供了一个实用而高效的解决方案。