LLM2D

摘要

本研究提出了一种名为 RePD 的创新攻击检索式提示分解框架，旨在缓解针对大型语言模型（LLM）的越狱攻击风险。尽管经过严格的预训练和微调，重点关注道德一致性，但 LLM 仍然容易受到越狱攻击。RePD 采用一次性学习模型，它访问预收集的越狱提示模板数据库，以识别和分解嵌入在用户提示中的有害查询。此过程涉及将越狱提示的分解整合到用户的原始查询中，形成一个一次性学习示例，以有效地教会 LLM 识别和分离恶意组件。因此，LLM 能够在根据其道德准则处理用户提示之前，首先中和任何潜在的有害元素。RePD 通用且兼容各种作为代理的开源 LLM。通过对有害和良性提示进行全面实验，我们证明了我们提出的 RePD 在增强 LLM 抗越狱攻击能力方面的有效性，同时不损害其对典型用户请求的响应性能。