LLM2D

摘要

尽管在安全对齐方面付出了巨大的努力，但像 GPT-4 和 LLaMA 3 这样的大型语言模型 (LLM) 仍然容易受到越狱攻击，这些攻击会导致有害行为，包括由对抗性后缀触发的行为。基于先前的研究，我们假设这些对抗性后缀不仅仅是错误，而是可能代表能够主导 LLM 行为的特征。为了评估这一假设，我们进行了多项实验。首先，我们证明了良性特征可以有效地用作对抗性后缀，即我们开发了一种特征提取方法，从良性数据集中提取样本无关特征，以后缀的形式，并表明这些后缀可能会有效地损害安全对齐。其次，我们表明从越狱攻击生成的对抗性后缀可能包含有意义的特征，即，将相同的后缀附加到不同的提示会导致响应表现出特定的特征。第三，我们表明，即使在没有有害内容的情况下，通过仅使用良性数据集进行微调，也可以轻松引入这种良性但会损害安全的特征，即，即使在没有有害内容的情况下。这突出了训练数据中主导良性特征带来的严重风险，并呼吁进一步研究来加强 LLM 安全对齐。我们的代码和数据可在 \url{https://github.com/suffix-maybe-feature/adver-suffix-maybe-features} 获取。