摘要
arXiv:2412.17415v2 论文类型:replace-cross
摘要:为了解决大型多模态模型在视频问答任务中面临的计算和内存限制问题,最近的几种方法会为每一帧提取文本表示(例如通过字幕),然后将其输入到大型语言模型(LLM)中,LLM会对这些文本表示进行处理以生成最终的回答。然而,在这种方式下,LLM无法访问视觉信息,并且通常需要处理相邻帧的重复文本描述。为了解决这些问题,本文提出了一种名为VidCtx的新型无训练框架,该框架结合了两种模态,即输入帧的视觉信息和提供适当上下文的其他帧的文本描述。更具体地,在所提出的框架中,一个预训练的大型多模态模型(LMM)在定期提取问题感知的视频帧文本描述(字幕)时被提示。在给定(a)某一帧、(b)问题和(c)适当帧的上下文/字幕时,该LMM被提示回答手头的问题。为了避免冗余信息,我们将作为上下文的选择为远处帧的描述。最后,我们使用一个简单而有效的最大池化机制来聚合帧级的决策。这种方法使模型能够专注于视频的相关片段,并能扩展到大量帧。实验结果表明,VidCtx在依赖开放模型的三个公开视频问答基准NExT-QA、IntentQA和STAR上实现了具有竞争力的性能。我们的代码可在 https://github.com/IDT-ITI/VidCtx 获取。