摘要
尽管在安全对齐方面付出了巨大的努力,但像 GPT-4 和 LLaMA 3 这样的大型语言模型 (LLM) 仍然容易受到越狱攻击,这些攻击会导致有害行为,包括由对抗性后缀触发的行为。基于先前的研究,我们假设这些对抗性后缀不仅仅是错误,而是可能代表能够主导 LLM 行为的特征。为了评估这一假设,我们进行了多项实验。首先,我们证明了良性特征可以有效地用作对抗性后缀,即我们开发了一种特征提取方法,从良性数据集中提取样本无关特征,以后缀的形式,并表明这些后缀可能会有效地损害安全对齐。其次,我们表明从越狱攻击生成的对抗性后缀可能包含有意义的特征,即,将相同的后缀附加到不同的提示会导致响应表现出特定的特征。第三,我们表明,即使在没有有害内容的情况下,通过仅使用良性数据集进行微调,也可以轻松引入这种良性但会损害安全的特征,即,即使在没有有害内容的情况下。这突出了训练数据中主导良性特征带来的严重风险,并呼吁进一步研究来加强 LLM 安全对齐。我们的代码和数据可在 \url{https://github.com/suffix-maybe-feature/adver-suffix-maybe-features} 获取。