LLM2D
将视频语言模型扩展至10000帧 via 分级梯度蒸馏
Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
作者: Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02438v1

摘要

arXiv:2504.02438v1 类别:交叉领域 摘要:长时间视频处理由于需要处理扩展的时间序列而对视觉-语言模型(VLMs)构成了根本性的挑战,这带来了高昂的计算成本。现有的令牌剪枝和特征合并方法往往牺牲了关键的时间相关性或稀释了语义信息。我们引入了差异性蒸馏,这是一种原则性的方法,能够系统地保留有关任务的信息,同时抑制冗余。在此基础上,我们开发了ViLaMP,这是一种分层的视频-语言模型,它通过两级机制以“混合精度”处理长达一小时的视频:(1) 差异性关键帧选择,该机制在最大化查询相关性的同时,在帧级别保持时间的区分性;(2) 差异性特征合并,在补丁级别保留查询显著的特征,而不是保留非关键帧的所有信息。因此,ViLaMP 在关键帧中保留了完整的信息,而在非关键帧中减少到其最显著的特征,类似于混合精度训练。广泛的实验展示了ViLaMP 在四个视频理解基准测试中表现出色,特别是在长视频内容上。值得注意的是,ViLaMP 可以在单个 NVIDIA A100 GPU 上处理超长时间的视频(长达 10K 帧),同时保持了高性能,展现了显著的计算效率。