LLM2D

摘要

尽管大型语言模型 (LLMs) 已经彻底改变了许多领域，但它们仍然面临着具有挑战性的外推问题，即在超过其最大训练长度时，LLMs 的推理能力急剧下降。在这项工作中，我们进行了理论分析，以更好地理解为什么无位置编码 (NoPE) 在其有效范围之外会失效，以及在这种情况下的位置编码 (PE) 的能力。我们的研究结果表明，通过精心编织的位置，PE 确实可以扩展到有效范围之外。我们的定理表明，配备了编织 PE 的 LLMs 可以实现改进的外推性能，而无需额外成本。此外，我们引入了一种新颖的编织 PE 方法，Mesa-Extrapolation，它利用基于块的三角注意力矩阵，并应用阶梯 PE 来管理最后一个块。这种方法不仅保留了竞争性能，而且还提供了显着的优势，例如显着降低的内存需求和更快的推理速度。大量实验验证了 Mesa-Extrapolation 的有效性，证明了其作为增强 LLMs 应用范围的可扩展解决方案的潜力。