LLM2D
大型语言模型哨兵:用于 adversarial 洁净处理的 LLAgent
Large Language Model Sentinel: LLM Agent for Adversarial Purification
作者: Guang Lin, Toshihisa Tanaka, Qibin Zhao
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2405.20770v4

摘要

arXiv:2405.20770v4 公告类型: replace-cross 摘要:在过去两年中,大型语言模型(LLMs)的应用快速发展。虽然这些LLMs提供了很大的便利,但也引发了安全方面的担忧,因为它们容易受到精心设计的文本扰动的对抗攻击。在这篇论文中,我们介绍了一种新的防御技术——大规模语言模型哨兵(LLAMOS),该技术旨在通过在将对抗性文本示例输入目标LLM之前对其进行净化,来增强LLM的对抗鲁棒性。我们的方法包括两个主要组成部分:a) 代理指令,它可以模拟一个新的代理进行对抗防御,通过最小修改字符来保持句子的原始含义,同时抵御攻击;b) 防护指导,它提供了修改干净或对抗性示例的策略,以确保目标LLM的有效防御和准确输出。值得注意的是,防御代理即使不学习对抗性示例也表现出 robust 的防御能力。此外,我们还进行了一次引人注目的对抗实验,在其中我们开发了两个代理,一个用于防御,一个用于攻击,并让它们相互对抗。在对抗互动中,两个代理都未能完全击败对方。我们在开源和封闭源LLM上的广泛实验表明,我们的方法有效地抵御了对抗性攻击,从而增强了对抗鲁棒性。