摘要
arXiv:2501.00599v3 Announce Type: replace-cross
摘要:视频大规模语言模型(Video LLMs)最近在通用视频理解方面展现出了卓越的能力。然而,它们主要关注整体理解,难以捕捉细微的空间和时间细节。此外,高质量的物体级视频指令数据的缺乏以及缺乏全面的基准数据进一步阻碍了其进一步发展。为了解决这些挑战,我们引入了VideoRefer Suite,以增强Video LLM在更细粒度的空间-时间视频理解能力,即在视频中的任何物体上实现感知和推理。特别地,我们从三个关键方面全面开发了VideoRefer Suite:数据集、模型和基准数据集。首先,我们介绍了一个多智能体数据引擎,以精心编曲一个大规模、高质量的物体级视频指令数据集,称为VideoRefer-700K。接下来,我们提出了VideoRefer模型,该模型配备了多功能的空间-时间对象编码器,以捕获精确的区域和序列表示。最后,我们精心构建了VideoRefer-Bench,以全面评估Video LLM的空间-时间理解能力,并从多个方面对其进行评估。广泛的实验和分析表明,我们的VideoRefer模型不仅在视频引用基准测试中获得了令人鼓舞的结果,还促进了通用视频理解的能力。