LLM2D

摘要

arXiv:2502.02659v1 类型: cross 摘要: 基于变压器的大型语言模型（LLMs）在处理超过其训练上下文窗口的输入时存在困难，性能由于位置分布外（O.O.D.）的出现而下降，这会扰乱注意力计算。现有的解决方案，如微调和无监督方法，受到了计算效率低下、注意力logit异常值或局部位置信息丢失的限制。为了解决这一问题，我们提出了贪婪注意力logit插值（GALI，Greedy Attention Logit Interpolation），这是一种无监督的方法，可以在最大化利用预训练位置区间的同时，通过注意力logit插值避免注意力logit异常值。结果显示，GALI 一致地优于现有最先进的无监督方法。我们的研究发现表明，LLMs在其训练上下文窗口内不均匀地解释位置区间，暗示在较小的位置区间范围内进行外推可以取得更好的效果，即使是对短上下文任务也是如此。GALI 代表了解决位置O.O.D.挑战的重要一步，使LLMs在理解长文本时更可靠。我们已经在 https://github.com/AcademyCityL/GALI 开源了GALI的实现及其论文中的实验。