LLM2D

摘要

视频大型语言模型（Video-LLMs）在粗粒度视频理解方面展现出非凡的能力，然而，它们在细粒度时间定位方面却存在困难。本文介绍了 Grounded-VideoLLM，这是一种新颖的视频-LLM，能够以细粒度的方式感知和推理特定视频片段。我们发现，现有的 Video-LLMs 在细粒度视频理解方面存在局限性，因为它们缺乏有效的时序建模和时间戳表示。鉴于此，我们通过结合（1）额外的时序流来编码帧之间的关系，以及（2）富含特定时间知识的离散时序标记来表示时间戳，来提升模型的精度。为了优化 Grounded-VideoLLM 的训练，我们采用多阶段训练方案，从简单的视频字幕任务开始，逐步引入复杂度不断增加的视频时间定位任务。为了进一步增强 Grounded-VideoLLM 的时间推理能力，我们还通过自动标注管道构建了一个基于时间定位的视频问答数据集。大量的实验表明，Grounded-VideoLLM 不仅在细粒度定位任务（如时间句子定位、稠密视频字幕和基于时间定位的视频问答）中表现出色，而且作为通用的视频助手在通用视频理解方面也展现出巨大潜力。