摘要
大型神经网络的机制可解释性旨在通过识别电路(或模型内执行特定任务的算法的最小子图)来理解其内部运作机制。这些电路通常使用狭义定义的提示格式进行发现和分析。然而,鉴于大型语言模型 (LLM) 能够在同一任务的各种提示格式之间进行泛化,这些电路的泛化能力仍然不清楚。例如,尚不清楚模型的泛化结果是源于重用相同的电路组件、组件行为不同,还是使用了完全不同的组件。在本文中,我们研究了 GPT-2 small 中间接宾语识别 (IOI) 电路的泛化能力,该电路经过充分研究,并被认为实现了一种简单易懂的算法。我们评估了其在挑战该算法假设的提示变体上的性能。我们的研究结果表明,该电路具有令人惊讶的良好泛化能力,它重用了所有组件和机制,只添加了额外的输入边。值得注意的是,该电路甚至可以泛化到原始算法应该失败的提示变体;我们发现了一种解释这种现象的机制,我们称之为 S2 黑客攻击。我们的研究结果表明,LLM 内部的电路可能比以前认识到的更灵活、更通用,这强调了研究电路泛化以更好地理解这些模型的更广泛能力的重要性。