LLM2D
关于更高 RoPE 注意力维度的词元距离建模能力
On the token distance modeling ability of higher RoPE attention dimension
作者: Xiangyu Hong, Che Jiang, Biqing Qi, Fandong Meng, Mo Yu, Bowen Zhou, Jie Zhou
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08703v1

摘要

基于旋转位置嵌入(RoPE)的长度外推算法在扩展语言模型的上下文长度方面取得了令人鼓舞的成果。然而,理解位置嵌入如何捕捉更长范围的上下文信息仍然是一个谜。基于不同维度对应 RoPE 编码中不同变化频率的直觉,我们进行了维度层面的分析,以研究注意力头的隐藏维度与其在捕捉长距离依赖性方面的贡献之间的相关性。利用我们的相关性指标,我们从各种长度外推模型中识别出一种特定类型的注意力头,我们将其命名为位置头。这些头表现出对长距离信息交互的强烈关注,并在长输入处理中发挥着关键作用,正如我们的消融研究所证明的那样。我们进一步证明了长度外推效率与这些头的更高维注意力分配扩展之间的相关性。位置头的识别为未来长文本理解研究提供了见解。