LLM2D

摘要

arXiv:2409.12963v1 公告类型: 交叉摘要: 大型语言模型 (LLMs) 的进步激发了多种将视频模态整合的策略。一种关键方法是 Video-LLMs，它通过一个可优化的接口将复杂的视频编码器与 LLMs 连接起来。然而，由于计算和数据限制，这些 Video-LLMs 通常预训练为仅处理短视频，限制了它们在理解更长视频内容方面的广泛应用。此外，微调 Video-LLMs 以处理更长的视频成本高昂。因此，在完全无需训练的环境下探索 Video-LLMs 的插值变得至关重要。本文首先识别了插值 Video-LLMs 的主要挑战：(1) 视频编码器和模态对齐投影仪是固定的，阻止了将额外帧整合到 Video-LLMs 中，(2) LLM 主干在内容长度能力上有限，这使得处理增加的视频令牌数量变得复杂。为解决这些挑战，我们提出了一种特定的 Video-LLMs 插值方法 (INTP-Video-LLMs)。我们引入了一种替代的视频令牌重排技术，绕过了固定视频编码器和对齐投影仪的限制。此外，我们引入了一种无需训练的 LLM 上下文窗口扩展方法，使 Video-LLMs 能够理解相应增加的视觉令牌数量。