摘要
arXiv:2504.06308v1 种类:交叉
摘要:旋转位置嵌入(RoPE)由于其高效性和外推能力,在Transformer中得到了广泛采用。然而,现有的RoPE变体缺乏统一的理论基础,尤其是在高维情况下。在本文中,我们提出了一个基于李群和李代数理论的系统数学框架来定义RoPE。我们识别了RoPE的两个核心特性,分别命名为相关性和可逆性,并推导出1D、2D和N维(ND)有效RoPE的一般约束和构建方法。我们证明RoPE必须位于特殊正交李代数的最大阿贝尔子代数(MASA)的基础上,并表明标准RoPE对应于最大拟核子代数。此外,我们提出通过学习正交基变换来建模跨维度的交互。我们的框架统一并解释了现有的RoPE设计,同时允许对新的模态和任务进行原则上的扩展。