LLM2D

摘要

arXiv:2504.18857v1 交叉公告类型：交叉摘要：大型语言模型（LLMs）在输入令牌数量超过预训练长度时，往往难以处理和生成连贯的上下文。最近在长上下文扩展方面的进展显著扩展了LLMs的上下文窗口，但需要昂贵的开销来训练具有更长上下文的大型模型。在本文中，我们提出了基于 RoPE 不同隐藏维度的横向位置嵌入操纵（DPE）框架，这是一种无需训练的框架，可通过深入分析 RoPE 的不同隐藏维度来扩展 LLMS 的上下文窗口。DPE 不是均匀地操纵所有维度，而是检测每个维度的有效长度，并找到用于上下文扩展的关键维度。DPE 使用预训练模型的原始位置索引及其嵌入，并操纵关键维度的位置索引以达到其最有效长度。通过这种方式，DPE 在最少的修改下调整预训练模型，同时确保每个维度达到其最佳状态以便扩展。DPE 显著超越了 YaRN 和 Self-Extend 等知名基线。DPE 使 Llama3-8k 8B 无需持续训练即可支持 128k 令牌的上下文窗口，并且可以无缝集成到 Flash Attention 2 中。除了其出色的数据外插能力外，DPE 还通过 RULER 等流行的大上下文基准测试显著改善了模型在训练长度内的表现，例如 Llama3.1 70B，在这些基准测试中性能提高了超过 18 个点。与商业模型相比，即使使用 DPE，Llama 3.1 70B 也优于 GPT-4-128K。