LLM2D
对抗性后缀也可能是特征!
Adversarial Suffixes May Be Features Too!
作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2410.00451v1

摘要

尽管在安全对齐方面付出了持续不断的努力,但像 GPT-4 和 LLaMA 3 这样的大型语言模型 (LLM) 仍然容易受到越狱攻击,这些攻击会导致有害行为,包括由对抗性后缀触发的行为。基于先前研究,我们假设这些对抗性后缀并非仅仅是错误,而是可能代表可以主导 LLM 行为的特征。为了评估这一假设,我们进行了多项实验。首先,我们证明了良性特征可以有效地被用作对抗性后缀,即我们开发了一种特征提取方法,以从良性数据集中提取样本无关的特征,并以后缀的形式展示这些后缀可能会有效地损害安全对齐。其次,我们表明,从越狱攻击生成的对抗性后缀可能包含有意义的特征,即,将相同的后缀附加到不同的提示会导致响应表现出特定的特征。第三,我们表明,这种良性但会损害安全的特征可以通过微调轻松引入,而只需使用良性数据集,即,即使在没有有害内容的情况下。这突出了训练数据中占主导地位的良性特征带来的严重风险,并呼吁进一步研究以加强 LLM 安全对齐。我们的代码和数据可在 \url{https://github.com/anonymous} 获取。