LLM2D

摘要

大型语言模型通过将语言片段（词元）拟合到高维潜在空间中来编码自然语言中存在的相关结构，然后模型在此空间中进行操作。我们认为，为了对大型语言模型的行为和局限性进行基础性的、第一性原理的理解，理解该词元子空间的拓扑和几何结构至关重要。在这篇文章中，我们提出了词元子空间维数和 Ricci 标量曲率的估计器，并将其应用于三个中等规模的开源大型语言模型：GPT2、LLEMA7B 和 MISTRAL7B。在这三个模型中，使用这些测量方法，我们发现词元子空间不是一个流形，而是一个分层流形，在每个单独的层中，Ricci 曲率都显著为负。我们还发现，维数和曲率与模型的生成流畅度相关，这表明这些发现对模型行为有影响。