LLM2D

摘要

本文提出了一种通用的方法，用于探索 Transformer 模型输入空间中的等价类。该方法基于严谨的数学理论，将 Transformer 架构的内部层描述为输入流形的连续变形。通过对模型雅可比矩阵定义的输出空间距离度量的拉回进行特征分解，我们能够重建输入空间中的等价类并跨越它们。我们展示了这种方法如何作为一种强大的工具，用于研究 Transformer 如何看待输入空间，从而在计算机视觉和自然语言处理任务中促进局部和与任务无关的可解释性。