摘要
arXiv:2502.13946v1 安全类型: cross
摘要:大型语言模型(LLMs)的安全对齐仍然容易受到攻击,因为它们的初始行为可以通过相对简单的攻击轻易被“破解”。由于在输入指令和初始模型输出之间填充固定模板是现有LLMs的一种常见做法,我们假设这个模板是其脆弱性的关键因素之一:LLMs的安全相关决策过度依赖于模板区域中的聚合信息,这在很大程度上影响了这些模型的安全行为。我们将这一问题称为模板锚定的安全对齐。在本文中,我们进行了广泛的实验,并验证了模板锚定的安全对齐在各种对齐的LLMs中普遍存在。我们的机制分析展示了当遇到推断时的“破解”攻击时,这导致了模型的脆弱性。此外,我们表明,从模板区域分离安全机制是有希望减轻“破解”攻击脆弱性的。我们鼓励未来的研究开发出更 robust 的安全对齐技术,减少对模板区域的依赖。