LLM2D
大型语言模型的词语空间结构
The structure of the token space for large language models
作者: Michael Robinson, Sourya Dey, Shauna Sweet
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08993v1

摘要

大型语言模型通过将语言片段(词元)拟合到高维潜在空间中来编码自然语言中存在的相关结构,然后模型在此空间中进行操作。我们认为,为了对大型语言模型的行为和局限性进行基础性的、第一性原理的理解,理解该词元子空间的拓扑和几何结构至关重要。在这篇文章中,我们提出了词元子空间维数和 Ricci 标量曲率的估计器,并将其应用于三个中等规模的开源大型语言模型:GPT2、LLEMA7B 和 MISTRAL7B。在这三个模型中,使用这些测量方法,我们发现词元子空间不是一个流形,而是一个分层流形,在每个单独的层中,Ricci 曲率都显著为负。我们还发现,维数和曲率与模型的生成流畅度相关,这表明这些发现对模型行为有影响。