摘要
arXiv:2502.11664v1 类型: 新
摘要: 旋转位置嵌入(RoPE)在基于文本的大型语言模型(LLMs)中显示出强大的性能,但在扩展到视频方面仍然面临挑战,因为视频帧具有复杂的时空结构。现有的适配方法,如RoPE-3D,尝试分别编码空间和时间维度,但存在两大主要局限性:注意力分布中的位置偏差以及视频-文本过渡中的中断。为克服这些问题,我们提出了一种名为视频旋转位置嵌入(VRoPE)的新颖位置编码方法,专门用于视频-LLMs。我们的方法重新结构化了位置索引来保持空间连贯性,并确保视频和文本标记之间的平滑过渡。此外,我们引入了一种更平衡的编码策略,以减轻注意力偏差,确保空间关注的更均匀分布。在不同模型规模的Vicuna和Qwen2上的广泛实验表明,VRoPE一直优于以前的RoPE变体,在视频理解、时间推理和检索任务中取得了显著的改进。代码将在https://github.com/johncaged/VRoPE 可用。