摘要
尽管大型语言模型 (LLM) 在各种用例中取得了前所未有的能力和应用进步,但这些模型的安全对齐仍然是活跃的研究领域。LLM 的脆弱性,即使是经过广泛对齐和安全训练的模型,也需要通过无训练、推理时的方法来采取额外的安全引导步骤。虽然最近在机制可解释性领域的工作已经研究了潜在表示空间中的激活如何编码概念,并随后执行表示工程以在 LLM 输出中诱导这些概念,但这种方法在安全方面的适用性尚待探索。与最近的推理时安全引导工作不同,本文探索了使用以下方法对 LLM 输出进行安全引导:(i) 类别特定的引导向量,从而能够对引导进行细粒度控制,以及 (ii) 用于提取信息引导向量的复杂方法,以实现更有效的安全引导,同时保留生成文本的质量。我们在多个 LLM 和数据集上展示了我们的探索,并展示了所提出的引导方法的有效性,以及对影响和最佳实践的讨论。