摘要
大型语言模型(LLMs)在各种任务中展现出非凡的性能。然而,LLMs 中的令牌嵌入是否最适合使用默认的欧几里得空间,这个问题仍然悬而未决。在本研究中,我们首先探究了 LLMs 的非欧几里得特性。我们的发现表明,令牌频率遵循幂律分布,高频令牌聚集在原点附近,而低频令牌则位于更远的位置。此外,令牌嵌入表现出高度的双曲性,表明嵌入空间中存在潜在的树状结构。基于这一观察,我们建议在双曲空间中高效地微调 LLMs,以更好地利用底层复杂结构。然而,我们发现,当嵌入矩阵和权重矩阵都位于欧几里得空间时,这种在双曲空间中的微调无法通过简单地应用指数和对数映射来实现。为了解决这一技术问题,我们引入了一种名为双曲低秩高效微调(HypLoRA)的新方法,该方法直接在双曲流形上进行低秩自适应,避免了由指数和对数映射引起的抵消效应,从而保留了双曲建模能力。通过大量的实验,我们证明了 HypLoRA 显着提高了 LLMs 在推理任务上的性能,特别是对于复杂的推理问题。特别是,HypLoRA 在复杂的 AQuA 数据集上将性能提高了高达 13.0%,展示了它在处理复杂推理挑战方面的有效性。