摘要
本研究提出了一种名为 RePD 的新颖攻击防御框架,该框架基于检索提示分解,旨在减轻大型语言模型 (LLM) 面临的越狱攻击风险。尽管经过严格的预训练和微调以确保道德一致性,LLM 仍然容易受到越狱攻击的利用。RePD 采用一次性学习模型,通过访问预先收集的越狱提示模板数据库来识别和分解嵌入在用户提示中的有害查询。此过程涉及将越狱提示分解整合到用户的原始查询中,形成一个一次性学习示例,以有效地教会 LLM 区分和分离恶意组件。因此,LLM 能够先中和任何潜在的有害元素,然后再以符合其道德准则的方式处理用户的提示。RePD 具有通用性,兼容各种作为代理的开源 LLM。通过使用有害和良性提示进行的全面实验,我们证明了我们提出的 RePD 在提高 LLM 对越狱攻击的抵御能力方面的有效性,同时不会影响其对典型用户请求的响应性能。