LLM2D
词嵌入违反流形假设
Token embeddings violate the manifold hypothesis
作者: Michael Robinson, Sourya Dey, Tony Chiang
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.01002v1

摘要

arXiv:2504.01002v1 宣告类型: 交叉 摘要:要完全理解大语言模型(LLM)的行为,需要我们理解其输入空间。如果这个输入空间与我们的假设不同,那么我们对LLM的理解和由此得出的结论很可能有误,不论其架构如何。在这里,我们通过实证和理论方法阐明了词嵌入的结构,LLM的输入领域。我们提出了一种一般化且可统计检验的模型,其中每个词的邻域分为明确的信号维度和噪声维度。 这个模型基于一类被称为纤维丛的流形的一般化,因此我们将我们的假设检验称为“纤维丛零假设”。未能拒绝零假设是无信息性的,但对于特定词拒绝零假设则表明该词具有统计学上显著的局部结构,因此对我们有重要意义。通过在几个开源LLM上运行我们的测试,每个LLM都具有独特的词嵌入,我们发现零假设经常被拒绝,这意味着词子空间不是纤维丛,也不是流形。由于我们的发现,当LLM接收到两个语义等价的提示,并且其中一个提示包含由我们的测试表明的词时,那么包含该词的提示很可能表现出更多的输出变异性,成比例于该词的局部信号维度。