LLM2D

摘要

arXiv:2503.18762v1 宣布类型: cross 摘要: 机制可解释性提高了大型AI模型的安全性、可靠性和鲁棒性。本研究检查了在包含不相关信息（轴标签、标题、颜色条）的扭曲2D频谱图上微调的视觉变换器（ViTs）中的个体注意力头。通过引入多余特征，本研究分析了变换器组件如何处理与任务无关的信息，使用机制可解释性来调试问题并揭示变换器架构的见解。注意力图评估了各层中的头贡献。在早期层（1到3）的头显示了最小的任务影响，移除这些头导致MSE损失略有增加（μ=0.11%，σ=0.09%），表明它们专注于不太关键的底层特征。相比之下，较深的头（例如，第6层）导致了三倍更高的损失增加（μ=0.34%，σ=0.02%），表明了更高的任务重要性。中间层（第6到第11层）表现出单调行为，仅关注 chirp 区域。一些早期头（1到4）也表现出单调行为，但与任务无关（例如，文本检测器、边缘或角检测器）。注意力图区分了单调头（精确的 chirp 定位）和多义头（多个无关区域）。这些发现揭示了ViTs中的功能特化，显示了头如何处理相关信息与多余信息。通过将变压器分解为可解释的组件，这项工作增强了模型理解，识别了漏洞，并推动了更加安全和透明的AI。