摘要
arXiv:2409.12963v1 公告类型: 交叉 摘要: 大型语言模型 (LLMs) 的进步激发了多种将视频模态整合的策略。一种关键方法是 Video-LLMs,它通过一个可优化的接口将复杂的视频编码器与 LLMs 连接起来。然而,由于计算和数据限制,这些 Video-LLMs 通常预训练为仅处理短视频,限制了它们在理解更长视频内容方面的广泛应用。此外,微调 Video-LLMs 以处理更长的视频成本高昂。因此,在完全无需训练的环境下探索 Video-LLMs 的插值变得至关重要。本文首先识别了插值 Video-LLMs 的主要挑战:(1) 视频编码器和模态对齐投影仪是固定的,阻止了将额外帧整合到 Video-LLMs 中,(2) LLM 主干在内容长度能力上有限,这使得处理增加的视频令牌数量变得复杂。为解决这些挑战,我们提出了一种特定的 Video-LLMs 插值方法 (INTP-Video-LLMs)。我们引入了一种替代的视频令牌重排技术,绕过了固定视频编码器和对齐投影仪的限制。此外,我们引入了一种无需训练的 LLM 上下文窗口扩展方法,使 Video-LLMs 能够理解相应增加的视觉令牌数量。