LLM2D
基于M-LLM的视频帧选择以实现高效的视频理解
M-LLM Based Video Frame Selection for Efficient Video Understanding
作者: Kai Hu, Feng Gao, Xiaohan Nie, Peng Zhou, Son Tran, Tal Neiman, Lingyun Wang, Mubarak Shah, Raffay Hamid, Bing Yin, Trishul Chilimbi
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2502.19680v2

摘要

arXiv:2502.19680v2 宣告类型: replace-cross 摘要:近期多模态大规模语言模型(M-LLMs)在视频推理方面取得了令人鼓舞的结果。流行的多模态大规模语言模型(M-LLM)框架通常采用简单的均匀采样方法来减少输入M-LLM的视频帧数量,尤其是在长上下文视频的情况下。然而,这可能会在视频的某些时间段丢失关键的上下文信息,使得下游M-LLM无法获得足够的视觉信息来回答问题。为了解决这一问题,我们提出了一种基于轻量级M-LLM的帧选择方法,该方法能够自适应地选择与用户查询更相关的帧。为了训练提出的帧选择器,我们引入了两种监督信号:(i)空间信号,通过对M-LLM提示单帧的重要性评分;(ii)时间信号,在此信号中,通过提示大规模语言模型(LLM)使用所有候选帧的字幕来选择多个帧。然后,所选择的帧由一个冻结的下游视频M-LLM进行视觉推理和问题回答。实验结果表明,提出的M-LLM视频帧选择器在中等(ActivityNet,NExT-QA)和长(EgoSchema,LongVideoBench)上下文视频问答基准测试中,提高了各种下游视频大规模语言模型(视频-LLM)的性能。