摘要
arXiv:2502.02659v1 类型: cross
摘要: 基于变压器的大型语言模型(LLMs)在处理超过其训练上下文窗口的输入时存在困难,性能由于位置分布外(O.O.D.)的出现而下降,这会扰乱注意力计算。现有的解决方案,如微调和无监督方法,受到了计算效率低下、注意力logit异常值或局部位置信息丢失的限制。为了解决这一问题,我们提出了贪婪注意力logit插值(GALI,Greedy Attention Logit Interpolation),这是一种无监督的方法,可以在最大化利用预训练位置区间的同时,通过注意力logit插值避免注意力logit异常值。结果显示,GALI 一致地优于现有最先进的无监督方法。我们的研究发现表明,LLMs在其训练上下文窗口内不均匀地解释位置区间,暗示在较小的位置区间范围内进行外推可以取得更好的效果,即使是对短上下文任务也是如此。GALI 代表了解决位置O.O.D.挑战的重要一步,使LLMs在理解长文本时更可靠。我们已经在 https://github.com/AcademyCityL/GALI 开源了GALI的实现及其论文中的实验。