摘要
arXiv:2411.12701v3 通知类型: 替换-交叉
摘要: 大型语言模型(LLMs)已知易受后门攻击的影响,其中包含在中毒样本中的触发器可以恶意地改变LLMs的行为。在本文中,我们不再针对LLMs进行攻击,而是通过自然语言解释的新视角来研究后门攻击。具体来说,我们利用LLMs的生成能力为它们的决策生成人类可读的解释,从而使我们可以直接对比干净样本和中毒样本的解释。我们的结果显示,后门模型对干净输入生成连贯的解释,但对有毒数据生成多样且合乎逻辑上存在缺陷的解释,这种模式在不同后门攻击下的分类和生成任务中都是一致的。进一步的分析揭示了解释生成过程中的关键见解。在单个词级别上,与有毒样本相关的解释词仅出现在最后几层变换器中。在句子级别上,注意力动态表明,有毒输入在解释生成过程中将注意力从原始输入上下文转移到其他地方。这些发现增强了我们对LLMs中后门机制的理解,并提出了一种通过可解释性检测漏洞的有前途的框架。