LLM2D

摘要

arXiv:2504.10068v1 类别: 多模态大型语言模型中的长上下文视频理解面临一个关键挑战：在保持计算效率的同时保留精细的空间-时间模式。现有方法（例如稀疏采样、低分辨率密集采样和标记压缩）在时间动态、空间细节或细微交互方面存在显著信息损失，尤其是在复杂运动或变化分辨率的视频中。为解决这一问题，我们提出了 $\mathbf{Mavors}$，一种新颖的框架，引入了 $\mathbf{M}$ 多 $\mathbf{a}$ 颗粒 $\mathbf{v}$ 视频 $\mathbf{o}$ 表示法，以实现全局长视频建模。具体而言，Mavors 通过两个核心组件直接将原始视频内容编码为潜在表示：1）一种通过 3D 卷积和 Vision Transformers 保留高分辨率空间特征的 Intra-chunk 视觉编码器（IVE），以及 2）一种通过具有切片级旋转位置编码的基于 Transformer 的依赖建模在切片之间建立时间一致性的 Inter-chunk 特征聚合器（IFA）。此外，该框架通过子图像分解将图像视为单帧视频来统一图像和视频理解。在各种基准测试中的实验表明，Mavors 在保持空间保真度和时间连续性方面优越于现有方法，在需要精细空间-时间推理的任务中显著优于其他方法。