LLM2D

摘要

arXiv:2411.09921v2 宣布类型: replace-cross 摘要: 在本文中，我们介绍了运动驱动视频推理(Motion-Grounded Video Reasoning)这一新的运动理解任务，要求根据输入问题生成视觉答案（视频分割掩码），因此需要隐式的时空推理和定位。该任务将现有的专注于明确动作/运动定位的时空定位工作扩展到了通过问题启用的隐式推理的更通用格式。为了促进新任务的发展，我们收集了一个名为 GROUNDMORE 的大规模数据集，其中包括 1,715 个视频片段以及针对基准测试深度和全面的运动推理能力故意设计的 249K 个物体掩码，这些掩码附带了 4 种问题类型（因果型、序列型、假设型和描述型）。GROUNDMORE 独特之处在于要求模型生成视觉答案，从而提供比纯文本更具体且可视觉解释的响应。它在时空定位和推理方面评估模型，促进解决与运动相关的视频推理、时间感知和像素级理解相关的复杂挑战。此外，我们还引入了一个名为运动驱动视频推理助手 (MORA) 的新基准模型。MORA 结合了多模态推理能力（来自多模态LLM）、像素级感知能力（来自定位模型 SAM）以及轻量级时间感知头。MORA 在 GROUNDMORE 上实现了可观的性能，相较于现有最佳的视觉定位基准模型平均高出 21.5%。我们希望通过这一新颖且具有挑战性的任务为通过视频推理分割实现稳健且通用的运动理解奠定基础。