摘要
arXiv:2411.12589v2 Announce Type: replace-cross
摘要:变换器通过自注意力机制革命性地改变了计算机视觉(CV)领域。然而,它们的复杂性使得潜在令牌表示难以解释。我们提出了ULTra框架,旨在解释变换器嵌入并揭示其中有意义的语义模式。ULTra使预训练模型能够在无需微调的情况下实现无监督语义分割。此外,我们提出了一种自我监督的训练方法,通过学习外部转换矩阵来改进分割性能,而不修改底层模型。我们的方法在无监督语义分割上实现了最先进的性能,超越了现有分割方法。此外,我们在合成和真实世界场景上验证了ULTra的模型解释能力,包括对象选择和通过LLMs进行可解释的文本摘要,展示了其在解释潜在令牌表示的语义结构方面的广泛适用性。