LLM2D
通过分层差分蒸馏将视频-语言模型扩展到10000帧
Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
作者: Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.02438v2

摘要

arXiv:2504.02438v2 通知类型: replace-cross 摘要:长时间视频处理从根本上挑战了视觉-语言模型(VLMs),因为处理延长的时间序列需要极高的计算成本。现有的标记修剪和特征合并方法往往牺牲了关键的时间依赖性或稀释了语义信息。我们引入了差异性蒸馏,这是一种系统地保留与任务相关的信息同时抑制冗余的方法。基于这一原则,我们开发了ViLaMP,一种分层的视频-语言模型,通过两种关键机制使用“混合精度”处理一小时的视频:(1)差异性关键帧选择,最大化查询相关性的同时在帧级别保持时间上的区别性;(2)差异性特征合并,在块级别保留查询显著特征而非关键帧。因此,ViLaMP 在关键帧中保留了完整的信息,同时将非关键帧减少到它们最显著的特征,类似于混合精度训练。广泛的实验表明,ViLaMP 在四个视频理解基准测试中表现出色,尤其是在长格式内容上。值得注意的是,使用单个 NVIDIA A100 GPU,ViLaMP 可以处理超长视频(多达 10K 帧),同时在保持最先进技术性能的前提下实现显著的计算效率。