LLM2D

摘要

arXiv:2502.11647v1 通知类型: cross 摘要: 大型语言模型（LLMs）广泛应用于决策制定，但它们的部署受到囚徒破解攻击的威胁，在这种攻击中，恶意用户操控模型行为以规避安全措施。现有的防御机制，如安全微调和模型编辑，要么需要大量的参数修改，要么缺乏精确性，导致在通用任务上的性能下降，这不适合部署后的安全性对齐。为了解决这些挑战，我们提出了 DELMAN（用于 LLMs 的动态编辑防破解），这是一种利用直接模型编辑的新方法，以实现对破解攻击的精确、动态保护。DELMAN 直接更新一组相关的参数，以消除有害行为的同时保留模型的实用性。为了避免在良性环境中触发安全响应，我们引入了 KL-散度正则化，以确保更新后的模型在处理良性查询时与原始模型保持一致。实验结果表明，在保护模型实用性的同时，DELMAN 能够更有效地缓解破解攻击，并能够无缝适应新的攻击实例，为部署后模型保护提供了一个实用而高效的解决方案。