LLM2D
细调的视觉变换器在失真图像上的机理可解释性:解码注意头行为以实现透明和可信赖的AI
Mechanistic Interpretability of Fine-Tuned Vision Transformers on Distorted Images: Decoding Attention Head Behavior for Transparent and Trustworthy AI
作者: Nooshin Bahador
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18762v1

摘要

arXiv:2503.18762v1 宣布类型: cross 摘要: 机制可解释性提高了大型AI模型的安全性、可靠性和鲁棒性。本研究检查了在包含不相关信息(轴标签、标题、颜色条)的扭曲2D频谱图上微调的视觉变换器(ViTs)中的个体注意力头。通过引入多余特征,本研究分析了变换器组件如何处理与任务无关的信息,使用机制可解释性来调试问题并揭示变换器架构的见解。注意力图评估了各层中的头贡献。在早期层(1到3)的头显示了最小的任务影响,移除这些头导致MSE损失略有增加(μ=0.11%,σ=0.09%),表明它们专注于不太关键的底层特征。相比之下,较深的头(例如,第6层)导致了三倍更高的损失增加(μ=0.34%,σ=0.02%),表明了更高的任务重要性。中间层(第6到第11层)表现出单调行为,仅关注 chirp 区域。一些早期头(1到4)也表现出单调行为,但与任务无关(例如,文本检测器、边缘或角检测器)。注意力图区分了单调头(精确的 chirp 定位)和多义头(多个无关区域)。这些发现揭示了ViTs中的功能特化,显示了头如何处理相关信息与多余信息。通过将变压器分解为可解释的组件,这项工作增强了模型理解,识别了漏洞,并推动了更加安全和透明的AI。