摘要
本研究提出了一种名为 RePD 的创新攻击检索式提示分解框架,旨在缓解针对大型语言模型(LLM)的越狱攻击风险。尽管经过严格的预训练和微调,重点关注道德一致性,但 LLM 仍然容易受到越狱攻击。RePD 采用一次性学习模型,它访问预收集的越狱提示模板数据库,以识别和分解嵌入在用户提示中的有害查询。此过程涉及将越狱提示的分解整合到用户的原始查询中,形成一个一次性学习示例,以有效地教会 LLM 识别和分离恶意组件。因此,LLM 能够在根据其道德准则处理用户提示之前,首先中和任何潜在的有害元素。RePD 通用且兼容各种作为代理的开源 LLM。通过对有害和良性提示进行全面实验,我们证明了我们提出的 RePD 在增强 LLM 抗越狱攻击能力方面的有效性,同时不损害其对典型用户请求的响应性能。