LLM2D
为什么防护良好的船只会搁浅?对齐的大语言模型的安全机制往往局限于模板区域
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region
作者: Chak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13946v1

摘要

arXiv:2502.13946v1 安全类型: cross 摘要:大型语言模型(LLMs)的安全对齐仍然容易受到攻击,因为它们的初始行为可以通过相对简单的攻击轻易被“破解”。由于在输入指令和初始模型输出之间填充固定模板是现有LLMs的一种常见做法,我们假设这个模板是其脆弱性的关键因素之一:LLMs的安全相关决策过度依赖于模板区域中的聚合信息,这在很大程度上影响了这些模型的安全行为。我们将这一问题称为模板锚定的安全对齐。在本文中,我们进行了广泛的实验,并验证了模板锚定的安全对齐在各种对齐的LLMs中普遍存在。我们的机制分析展示了当遇到推断时的“破解”攻击时,这导致了模型的脆弱性。此外,我们表明,从模板区域分离安全机制是有希望减轻“破解”攻击脆弱性的。我们鼓励未来的研究开发出更 robust 的安全对齐技术,减少对模板区域的依赖。