LLM2D

摘要

arXiv:2502.19680v2 宣告类型: replace-cross 摘要：近期多模态大规模语言模型（M-LLMs）在视频推理方面取得了令人鼓舞的结果。流行的多模态大规模语言模型（M-LLM）框架通常采用简单的均匀采样方法来减少输入M-LLM的视频帧数量，尤其是在长上下文视频的情况下。然而，这可能会在视频的某些时间段丢失关键的上下文信息，使得下游M-LLM无法获得足够的视觉信息来回答问题。为了解决这一问题，我们提出了一种基于轻量级M-LLM的帧选择方法，该方法能够自适应地选择与用户查询更相关的帧。为了训练提出的帧选择器，我们引入了两种监督信号：（i）空间信号，通过对M-LLM提示单帧的重要性评分；（ii）时间信号，在此信号中，通过提示大规模语言模型（LLM）使用所有候选帧的字幕来选择多个帧。然后，所选择的帧由一个冻结的下游视频M-LLM进行视觉推理和问题回答。实验结果表明，提出的M-LLM视频帧选择器在中等（ActivityNet，NExT-QA）和长（EgoSchema，LongVideoBench）上下文视频问答基准测试中，提高了各种下游视频大规模语言模型（视频-LLM）的性能。