摘要
arXiv:2504.10068v1 类别: 多模态大型语言模型中的长上下文视频理解面临一个关键挑战:在保持计算效率的同时保留精细的空间-时间模式。现有方法(例如稀疏采样、低分辨率密集采样和标记压缩)在时间动态、空间细节或细微交互方面存在显著信息损失,尤其是在复杂运动或变化分辨率的视频中。为解决这一问题,我们提出了 $\mathbf{Mavors}$,一种新颖的框架,引入了 $\mathbf{M}$ 多 $\mathbf{a}$ 颗粒 $\mathbf{v}$ 视频 $\mathbf{o}$ 表示法,以实现全局长视频建模。具体而言,Mavors 通过两个核心组件直接将原始视频内容编码为潜在表示:1)一种通过 3D 卷积和 Vision Transformers 保留高分辨率空间特征的 Intra-chunk 视觉编码器(IVE),以及 2)一种通过具有切片级旋转位置编码的基于 Transformer 的依赖建模在切片之间建立时间一致性的 Inter-chunk 特征聚合器(IFA)。此外,该框架通过子图像分解将图像视为单帧视频来统一图像和视频理解。在各种基准测试中的实验表明,Mavors 在保持空间保真度和时间连续性方面优越于现有方法,在需要精细空间-时间推理的任务中显著优于其他方法。