LLM2D
将视频语言模型扩展至10K帧via分层差异性蒸馏
Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
作者: Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.02438v3

摘要

arXiv:2504.02438v3 通知类型: 替换-交叉 摘要:长视频处理在视觉-语言模型(VLMs)中从根本上提出了挑战,因为处理扩展的时间序列需要极高的计算成本。现有的标记修剪和特征合并方法往往会牺牲关键的时间依赖性或稀释语义信息。我们引入了微分蒸馏,这是一种系统地保留与任务相关的信息同时抑制冗余性的原则方法。基于这一原则,我们开发了ViLaMP,这是一种层次化的视频-语言模型,通过两种关键机制以“混合精度”处理长达一小时的视频:(1)微分关键帧选择,最大化查询的相关性同时在帧级别保持时间上的独特性;(2)微分特征合并,在补丁级别保留查询相关的特征。因此,ViLaMP 在关键帧中保留了完整的信息,同时将非关键帧简化为其最显著的特征,类似于混合精度训练。广泛的实验表明,ViLaMP 在四个视频理解基准测试中表现出色,特别是在长视频内容上。值得注意的是,ViLaMP 能在一个 NVIDIA A100 GPU 上处理长达 10K 帧的超长视频,同时在保持最先进的性能的情况下取得了显著的计算效率。