LLM2D
通过维数 wise 位置嵌入操控实现有效的长度外插
Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation
作者: Yi Lu, Wanxu Zhao, Xin Zhou, Chenxin An, Chenglong Wang, Shuo Li, Yuming Yang, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18857v1

摘要

arXiv:2504.18857v1 交叉公告类型:交叉 摘要:大型语言模型(LLMs)在输入令牌数量超过预训练长度时,往往难以处理和生成连贯的上下文。最近在长上下文扩展方面的进展显著扩展了LLMs的上下文窗口,但需要昂贵的开销来训练具有更长上下文的大型模型。在本文中,我们提出了基于 RoPE 不同隐藏维度的横向位置嵌入操纵(DPE)框架,这是一种无需训练的框架,可通过深入分析 RoPE 的不同隐藏维度来扩展 LLMS 的上下文窗口。DPE 不是均匀地操纵所有维度,而是检测每个维度的有效长度,并找到用于上下文扩展的关键维度。DPE 使用预训练模型的原始位置索引及其嵌入,并操纵关键维度的位置索引以达到其最有效长度。通过这种方式,DPE 在最少的修改下调整预训练模型,同时确保每个维度达到其最佳状态以便扩展。DPE 显著超越了 YaRN 和 Self-Extend 等知名基线。DPE 使 Llama3-8k 8B 无需持续训练即可支持 128k 令牌的上下文窗口,并且可以无缝集成到 Flash Attention 2 中。除了其出色的数据外插能力外,DPE 还通过 RULER 等流行的大上下文基准测试显著改善了模型在训练长度内的表现,例如 Llama3.1 70B,在这些基准测试中性能提高了超过 18 个点。与商业模型相比,即使使用 DPE,Llama 3.1 70B 也优于 GPT-4-128K。