LLM2D

摘要

arXiv:2405.20770v4 公告类型: replace-cross 摘要：在过去两年中，大型语言模型（LLMs）的应用快速发展。虽然这些LLMs提供了很大的便利，但也引发了安全方面的担忧，因为它们容易受到精心设计的文本扰动的对抗攻击。在这篇论文中，我们介绍了一种新的防御技术——大规模语言模型哨兵（LLAMOS），该技术旨在通过在将对抗性文本示例输入目标LLM之前对其进行净化，来增强LLM的对抗鲁棒性。我们的方法包括两个主要组成部分：a) 代理指令，它可以模拟一个新的代理进行对抗防御，通过最小修改字符来保持句子的原始含义，同时抵御攻击；b) 防护指导，它提供了修改干净或对抗性示例的策略，以确保目标LLM的有效防御和准确输出。值得注意的是，防御代理即使不学习对抗性示例也表现出 robust 的防御能力。此外，我们还进行了一次引人注目的对抗实验，在其中我们开发了两个代理，一个用于防御，一个用于攻击，并让它们相互对抗。在对抗互动中，两个代理都未能完全击败对方。我们在开源和封闭源LLM上的广泛实验表明，我们的方法有效地抵御了对抗性攻击，从而增强了对抗鲁棒性。