LLM2D
Mavors:多粒度视频表示用于多模态大型语言模型
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model
作者: Yang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10068v1

摘要

arXiv:2504.10068v1 类别: 多模态大型语言模型中的长上下文视频理解面临一个关键挑战:在保持计算效率的同时保留精细的空间-时间模式。现有方法(例如稀疏采样、低分辨率密集采样和标记压缩)在时间动态、空间细节或细微交互方面存在显著信息损失,尤其是在复杂运动或变化分辨率的视频中。为解决这一问题,我们提出了 $\mathbf{Mavors}$,一种新颖的框架,引入了 $\mathbf{M}$ 多 $\mathbf{a}$ 颗粒 $\mathbf{v}$ 视频 $\mathbf{o}$ 表示法,以实现全局长视频建模。具体而言,Mavors 通过两个核心组件直接将原始视频内容编码为潜在表示:1)一种通过 3D 卷积和 Vision Transformers 保留高分辨率空间特征的 Intra-chunk 视觉编码器(IVE),以及 2)一种通过具有切片级旋转位置编码的基于 Transformer 的依赖建模在切片之间建立时间一致性的 Inter-chunk 特征聚合器(IFA)。此外,该框架通过子图像分解将图像视为单帧视频来统一图像和视频理解。在各种基准测试中的实验表明,Mavors 在保持空间保真度和时间连续性方面优越于现有方法,在需要精细空间-时间推理的任务中显著优于其他方法。