LLM2D

摘要

arXiv:2502.11664v1 类型: 新摘要: 旋转位置嵌入（RoPE）在基于文本的大型语言模型（LLMs）中显示出强大的性能，但在扩展到视频方面仍然面临挑战，因为视频帧具有复杂的时空结构。现有的适配方法，如RoPE-3D，尝试分别编码空间和时间维度，但存在两大主要局限性：注意力分布中的位置偏差以及视频-文本过渡中的中断。为克服这些问题，我们提出了一种名为视频旋转位置嵌入（VRoPE）的新颖位置编码方法，专门用于视频-LLMs。我们的方法重新结构化了位置索引来保持空间连贯性，并确保视频和文本标记之间的平滑过渡。此外，我们引入了一种更平衡的编码策略，以减轻注意力偏差，确保空间关注的更均匀分布。在不同模型规模的Vicuna和Qwen2上的广泛实验表明，VRoPE一直优于以前的RoPE变体，在视频理解、时间推理和检索任务中取得了显著的改进。代码将在https://github.com/johncaged/VRoPE 可用。