摘要
大型语言模型 (LLM) 的进步激发了各种将视频模态整合的策略。一种关键方法是视频-LLM,它包含一个可优化接口,将复杂的视频编码器与 LLM 连接起来。然而,由于计算和数据限制,这些视频-LLM 通常经过预训练,只能处理短视频,限制了它们在理解更长视频内容方面的更广泛应用。此外,对视频-LLM 进行微调以处理更长的视频成本高昂。因此,探索在完全无训练环境下对视频-LLM 进行插值至关重要。在本文中,我们首先确定了对视频-LLM 进行插值的 主要挑战: (1) 视频编码器和模态对齐投影器是固定的,无法将额外的帧集成到视频-LLM 中,以及 (2) LLM 主干的 内容长度能力有限,这使得处理增加的视频标记数量变得复杂。为了解决这些挑战,我们为视频-LLM 提出了一个专门的 INTerPolation 方法 (INTP-Video-LLMs)。我们介绍了一种替代的视频标记重排技术,该技术绕过了固定视频编码器和对齐投影器带来的限制。此外,我们介绍了一种无训练的 LLM 上下文窗口扩展方法,使视频-LLM 能够理解相应增加的视觉标记数量。