LLM2D
基于检索的上下文学习的对抗鲁棒性评估与保障
Evaluating and Safeguarding the Adversarial Robustness of Retrieval-Based In-Context Learning
作者: Simon Yu, Jie He, Pasquale Minervini, Jeff Z. Pan
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2405.15984v3

摘要

随着大型语言模型如 LLaMA 和 OpenAI GPT-3 的出现,上下文学习 (ICL) 由于其有效性和效率而获得了极大的关注。然而,ICL 对用于在提示中编码演示的选择、顺序和语言表达方式非常敏感。检索增强型 ICL 方法试图通过利用检索器来提取语义相关的示例作为演示来解决这个问题。虽然这种方法可以产生更准确的结果,但其对各种类型对抗攻击的鲁棒性,包括对测试样本、演示和检索数据的扰动,仍未得到充分探索。我们的研究表明,检索增强型模型可以增强对测试样本攻击的鲁棒性,优于传统 ICL,攻击成功率 (ASR) 降低了 4.87%;然而,它们在演示中表现出过度自信,导致演示攻击的 ASR 增加了 2%。对抗训练可以帮助提高 ICL 方法对对抗攻击的鲁棒性;然而,在大型语言模型的背景下,这种训练方案可能过于昂贵。作为替代方案,我们引入了一种有效的无训练对抗防御方法 DARD,它通过那些攻击样本丰富了示例池。我们表明,DARD 在性能和鲁棒性方面取得了改进,与基线相比,ASR 降低了 15%。代码和数据已发布以鼓励进一步研究:https://github.com/simonucl/adv-retreival-icl