LLM2D

摘要

arXiv:2504.06214v1 Announce Type: cross 摘要：长上下文能力对于多种应用至关重要，包括文档和视频理解、上下文学习以及推理时的扩展，所有这些都要求模型能够处理和推理长文本和多模态数据序列。在这项工作中，我们介绍了一种高效的训练方法，用于构建从对齐的指令模型构建超长上下文LLM，并将上下文长度从128K扩展到1M、2M和4M令牌。我们的方法利用高效连续预训练策略来扩展上下文窗口，并采用有效的指令微调以保持指令遵循和推理能力。基于我们的方法构建的UltraLong-8B，是建立在Llama3.1-Instruct之上，实现了多样化长上下文基准测试中的最先进的性能。重要的是，使用我们方法训练的模型在标准基准测试中保持了竞争力，表明对长上下文和短上下文任务都实现了平衡改进。我们还深入分析了关键设计选择，强调了扩展策略和数据组成的影响。我们的发现确立了一种稳健的框架，以高效扩展上下文长度的同时保持通用模型能力。我们将在以下网址发布所有模型权重：https://ultralong.github.io/。