LLM2D

摘要

arXiv:2411.12589v2 Announce Type: replace-cross 摘要：变换器通过自注意力机制革命性地改变了计算机视觉(CV)领域。然而，它们的复杂性使得潜在令牌表示难以解释。我们提出了ULTra框架，旨在解释变换器嵌入并揭示其中有意义的语义模式。ULTra使预训练模型能够在无需微调的情况下实现无监督语义分割。此外，我们提出了一种自我监督的训练方法，通过学习外部转换矩阵来改进分割性能，而不修改底层模型。我们的方法在无监督语义分割上实现了最先进的性能，超越了现有分割方法。此外，我们在合成和真实世界场景上验证了ULTra的模型解释能力，包括对象选择和通过LLMs进行可解释的文本摘要，展示了其在解释潜在令牌表示的语义结构方面的广泛适用性。