LLM2D

摘要

大型语言模型 (LLM) 的进步激发了各种将视频模态整合的策略。一种关键方法是视频-LLM，它包含一个可优化接口，将复杂的视频编码器与 LLM 连接起来。然而，由于计算和数据限制，这些视频-LLM 通常经过预训练，只能处理短视频，限制了它们在理解更长视频内容方面的更广泛应用。此外，对视频-LLM 进行微调以处理更长的视频成本高昂。因此，探索在完全无训练环境下对视频-LLM 进行插值至关重要。在本文中，我们首先确定了对视频-LLM 进行插值的主要挑战： (1) 视频编码器和模态对齐投影器是固定的，无法将额外的帧集成到视频-LLM 中，以及 (2) LLM 主干的内容长度能力有限，这使得处理增加的视频标记数量变得复杂。为了解决这些挑战，我们为视频-LLM 提出了一个专门的 INTerPolation 方法 (INTP-Video-LLMs)。我们介绍了一种替代的视频标记重排技术，该技术绕过了固定视频编码器和对齐投影器带来的限制。此外，我们介绍了一种无训练的 LLM 上下文窗口扩展方法，使视频-LLM 能够理解相应增加的视觉标记数量。