摘要
arXiv:2406.00622v2 宣告类型: replace-cross
摘要:对于视觉-语言模型(VLMs),理解视频中三维场景中对象及其相互作用的动态属性对于有效推理高层时间性和动作语义至关重要。尽管人类可以通过构建三维和时间(4D)世界的表示来善于理解这些属性,但当前的视频理解模型在提取这些动态语义方面存在困难,这可能是由于这些模型在缺乏4D场景知识的情况下使用跨帧推理造成的。在这项工作中,我们引入了DynSuperCLEVR,这是第一个专注于理解三维物体动态属性的语言理解的视频问答数据集。我们关注四个维度场景内的三个物理概念——速度、加速度和碰撞。进一步生成了三种类型的问题,包括关于这些四个维度动态属性不同方面的事实查询、未来预测和反事实推理。为了进一步证明明确的场景表示在回答这些四个维度动力学问题中的重要性,我们提出了NS-4DPhysics,这是一种结合了4D动态属性物理先验和视频明确场景表示的神经符号视频问答模型。我们的方法不是直接从视频文本输入中回答问题,而是首先使用一个由物理先验驱动的三维生成模型估计4D世界状态,然后基于4D世界状态使用神经符号推理回答问题。在DynSuperCLEVR中的所有三种类型问题上的评估结果显示,以往的视频问答模型和大型多模态模型在回答4D动态问题时存在困难,而我们的NS-4DPhysics显著优于以往的最先进模型。我们的代码和数据发布在https://xingruiwang.github.io/projects/DynSuperCLEVR/。