LLM2D

摘要

尽管在安全对齐方面付出了持续不断的努力，但像 GPT-4 和 LLaMA 3 这样的大型语言模型 (LLM) 仍然容易受到越狱攻击，这些攻击会导致有害行为，包括由对抗性后缀触发的行为。基于先前研究，我们假设这些对抗性后缀并非仅仅是错误，而是可能代表可以主导 LLM 行为的特征。为了评估这一假设，我们进行了多项实验。首先，我们证明了良性特征可以有效地被用作对抗性后缀，即我们开发了一种特征提取方法，以从良性数据集中提取样本无关的特征，并以后缀的形式展示这些后缀可能会有效地损害安全对齐。其次，我们表明，从越狱攻击生成的对抗性后缀可能包含有意义的特征，即，将相同的后缀附加到不同的提示会导致响应表现出特定的特征。第三，我们表明，这种良性但会损害安全的特征可以通过微调轻松引入，而只需使用良性数据集，即，即使在没有有害内容的情况下。这突出了训练数据中占主导地位的良性特征带来的严重风险，并呼吁进一步研究以加强 LLM 安全对齐。我们的代码和数据可在 \url{https://github.com/anonymous} 获取。