LLM2D

摘要

尽管视觉Transformer（ViT）在各种环境中取得了最先进的性能，但它们在执行涉及视觉关系的任务时却表现出令人惊讶的失败。这就引出一个问题：ViT是如何尝试执行需要计算对象之间视觉关系的任务的？以往解释ViT的努力往往集中于表征相关的低级视觉特征。相反，我们采用机制可解释性方法来研究ViT用于执行抽象视觉推理的高级视觉算法。我们提出了一个基本但又出奇困难的关系推理任务的案例研究：判断两个视觉实体是否相同。我们发现，在这个任务上微调的预训练ViT通常表现出两个定性不同的处理阶段，尽管没有明显的归纳偏差：1）感知阶段，其中局部对象特征被提取并存储在一个解耦的表示中；2）关系阶段，其中对象表示被比较。在第二阶段，我们发现证据表明ViT可以学习表示某种抽象的视觉关系，这种能力长期以来被认为是人工神经网络无法企及的。最后，我们证明了任何一个阶段的失败都可能阻止模型学习我们相当简单的任务的泛化解。通过从离散处理阶段的角度理解ViT，可以更精确地诊断和纠正现有和未来模型的不足。