LLM2D
Mesa-Extrapolation:一种用于增强 LLM 外推能力的编织位置编码方法
Mesa-Extrapolation: A Weave Position Encoding Method for Enhanced Extrapolation in LLMs
作者: Xin Ma, Yang Liu, Jingjing Liu, Xiaoxu Ma
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.15859v2

摘要

尽管大型语言模型 (LLMs) 已经彻底改变了许多领域,但它们仍然面临着具有挑战性的外推问题,即在超过其最大训练长度时,LLMs 的推理能力急剧下降。在这项工作中,我们进行了理论分析,以更好地理解为什么无位置编码 (NoPE) 在其有效范围之外会失效,以及在这种情况下的位置编码 (PE) 的能力。我们的研究结果表明,通过精心编织的位置,PE 确实可以扩展到有效范围之外。我们的定理表明,配备了编织 PE 的 LLMs 可以实现改进的外推性能,而无需额外成本。此外,我们引入了一种新颖的编织 PE 方法,Mesa-Extrapolation,它利用基于块的三角注意力矩阵,并应用阶梯 PE 来管理最后一个块。这种方法不仅保留了竞争性能,而且还提供了显着的优势,例如显着降低的内存需求和更快的推理速度。大量实验验证了 Mesa-Extrapolation 的有效性,证明了其作为增强 LLMs 应用范围的可扩展解决方案的潜力。