摘要
arXiv:2412.10423v2 安全类型: 替换-交叉
摘要: 尽管大型语言模型(LLMs)配备了对齐机制,但它们在面临新兴的监狱逃脱攻击时变得越来越脆弱,这些攻击可以破坏其对齐机制。这种脆弱性对实际应用带来了重大风险。现有研究在训练效率和泛化能力(即从人类反馈的强化学习和红队测试)方面面临挑战。开发有效的策略以使LLMs能够抵御不断演变的监狱逃脱尝试,是一个重大挑战。为应对这一挑战,我们提出了一个新的防御范式,称为GuidelineLLM,它有助于LLMs识别可能包含有害内容的查询。在LLMs响应查询之前,GuidelineLLM首先识别查询可能关联的风险,并将这些风险总结为指南提示,然后将这些指南传递给响应的LLMs。重要的是,我们的方法消除了对LLMs自身的额外安全微调的必要性;只有GuidelineLLM需要微调。这一特性增强了GuidelineLLM在各种LLMs中的通用适用性。实验结果表明,GuidelineLLM可以显著降低针对LLMs的攻击成功率(ASR,平均降低34.17%的ASR),同时保持LLMs在处理良性查询方面的实用性。代码可在https://github.com/sqzhang-lazy/GuidelineLLM获得。