LLM2D

摘要

arXiv:2412.10423v2 安全类型: 替换-交叉摘要: 尽管大型语言模型（LLMs）配备了对齐机制，但它们在面临新兴的监狱逃脱攻击时变得越来越脆弱，这些攻击可以破坏其对齐机制。这种脆弱性对实际应用带来了重大风险。现有研究在训练效率和泛化能力（即从人类反馈的强化学习和红队测试）方面面临挑战。开发有效的策略以使LLMs能够抵御不断演变的监狱逃脱尝试，是一个重大挑战。为应对这一挑战，我们提出了一个新的防御范式，称为GuidelineLLM，它有助于LLMs识别可能包含有害内容的查询。在LLMs响应查询之前，GuidelineLLM首先识别查询可能关联的风险，并将这些风险总结为指南提示，然后将这些指南传递给响应的LLMs。重要的是，我们的方法消除了对LLMs自身的额外安全微调的必要性；只有GuidelineLLM需要微调。这一特性增强了GuidelineLLM在各种LLMs中的通用适用性。实验结果表明，GuidelineLLM可以显著降低针对LLMs的攻击成功率（ASR，平均降低34.17%的ASR），同时保持LLMs在处理良性查询方面的实用性。代码可在https://github.com/sqzhang-lazy/GuidelineLLM获得。