LLM2D

摘要

arXiv:2502.13946v1 安全类型: cross 摘要：大型语言模型（LLMs）的安全对齐仍然容易受到攻击，因为它们的初始行为可以通过相对简单的攻击轻易被“破解”。由于在输入指令和初始模型输出之间填充固定模板是现有LLMs的一种常见做法，我们假设这个模板是其脆弱性的关键因素之一：LLMs的安全相关决策过度依赖于模板区域中的聚合信息，这在很大程度上影响了这些模型的安全行为。我们将这一问题称为模板锚定的安全对齐。在本文中，我们进行了广泛的实验，并验证了模板锚定的安全对齐在各种对齐的LLMs中普遍存在。我们的机制分析展示了当遇到推断时的“破解”攻击时，这导致了模型的脆弱性。此外，我们表明，从模板区域分离安全机制是有希望减轻“破解”攻击脆弱性的。我们鼓励未来的研究开发出更 robust 的安全对齐技术，减少对模板区域的依赖。