LLM2D
从128K到4M:高效训练超长上下文大型语言模型
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models
作者: Chejian Xu, Wei Ping, Peng Xu, Zihan Liu, Boxin Wang, Mohammad Shoeybi, Bo Li, Bryan Catanzaro
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.06214v1

摘要

arXiv:2504.06214v1 Announce Type: cross 摘要:长上下文能力对于多种应用至关重要,包括文档和视频理解、上下文学习以及推理时的扩展,所有这些都要求模型能够处理和推理长文本和多模态数据序列。在这项工作中,我们介绍了一种高效的训练方法,用于构建从对齐的指令模型构建超长上下文LLM,并将上下文长度从128K扩展到1M、2M和4M令牌。我们的方法利用高效连续预训练策略来扩展上下文窗口,并采用有效的指令微调以保持指令遵循和推理能力。基于我们的方法构建的UltraLong-8B,是建立在Llama3.1-Instruct之上,实现了多样化长上下文基准测试中的最先进的性能。重要的是,使用我们方法训练的模型在标准基准测试中保持了竞争力,表明对长上下文和短上下文任务都实现了平衡改进。我们还深入分析了关键设计选择,强调了扩展策略和数据组成的影响。我们的发现确立了一种稳健的框架,以高效扩展上下文长度的同时保持通用模型能力。我们将在以下网址发布所有模型权重:https://ultralong.github.io/。