LLM2D
将指令调优的大语言模型扩展到百万token上下文via分层合成数据生成
Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation
作者: Linda He, Jue Wang, Maurice Weber, Shang Zhu, Ben Athiwaratkun, Ce Zhang
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12637v1

摘要

arXiv:2504.12637v1 Announce Type: cross Abstract: 大型语言模型(LLMs)在处理长上下文推理时面临困难,不仅是因为计算复杂性随序列长度呈二次增长,还因为难以标注长上下文字段且成本高昂。几乎没有任何开源工作系统地剥离长上下文字段,也没有现成的指令调优数据集包含超过100K词元的上下文。为了弥补这一差距,我们提出了一种新颖的后训练合成数据生成策略,旨在高效地扩展LLMs的上下文窗口,同时保持其一般任务性能。我们的方法可以扩展到任意长的上下文长度,不受可用真实世界数据长度的限制,从而有效地解决了原始长上下文数据稀缺的问题。通过逐步旋转位置嵌入(RoPE)扩展训练策略,我们展示了我们的模型在RULER基准和InfiniteBench上表现出色,并在通用语言任务上保持了稳健的性能。