LLM2D
ULTra: 揭示基于变换器的理解与分割中潜藏的_token可解释性_
ULTra: Unveiling Latent Token Interpretability in Transformer-Based Understanding and Segmentation
作者: Hesam Hosseini, Ghazal Hosseini Mighan, Amirabbas Afzali, Sajjad Amini, Amir Houmansadr
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2411.12589v2

摘要

arXiv:2411.12589v2 Announce Type: replace-cross 摘要:变换器通过自注意力机制革命性地改变了计算机视觉(CV)领域。然而,它们的复杂性使得潜在令牌表示难以解释。我们提出了ULTra框架,旨在解释变换器嵌入并揭示其中有意义的语义模式。ULTra使预训练模型能够在无需微调的情况下实现无监督语义分割。此外,我们提出了一种自我监督的训练方法,通过学习外部转换矩阵来改进分割性能,而不修改底层模型。我们的方法在无监督语义分割上实现了最先进的性能,超越了现有分割方法。此外,我们在合成和真实世界场景上验证了ULTra的模型解释能力,包括对象选择和通过LLMs进行可解释的文本摘要,展示了其在解释潜在令牌表示的语义结构方面的广泛适用性。