摘要
arXiv:2505.07793v1 交叉公告类型
摘要:最近,在大规模语言模型(LLMs)发展中,出现了一种开发递归次平方模型的趋势,这些模型能够提高长上下文处理效率。我们研究了领先的大型长上下文模型,重点关注其固定大小的递归记忆对其性能的影响。我们的实验揭示,即使这些模型在扩展上下文中进行训练,它们利用长上下文的能力仍然不足。具体而言,我们证明了一种基于片段的推理过程,该过程仅识别并处理输入中最相关的部分,可以缓解递归记忆失败,并且对许多长上下文任务都是有效的:在LongBench基准测试中,我们的方法分别将Falcon3-Mamba-Inst-7B的总体性能提高了14%,Falcon-Mamba-Inst-7B提高了28%,RecurrentGemma-IT-9B提高了50%,以及RWKV6-Finch-7B提高了51%。令人惊讶的是,这种简单的办法在具有挑战性的LongBench v2基准测试中也取得了最先进的结果,展示了与相同大小的Transformer竞争的性能。此外,我们的发现引起了一个问题,即递归模型是否真正利用了长范围依赖关系,因为我们的单片段策略即使在需要跨上下文关系的任务中也能提供更强大的性能。