摘要
arXiv:2412.07755v2 通知类型: 替换-跨领域
摘要:关于运动和空间的推理是多个现实世界应用所需的基本认知能力。尽管许多研究指出大型多模态语言模型(MLMs)在空间推理方面遇到困难,但它们仅专注于静态空间关系,而非运动和空间的动态意识,即关于主体和物体运动对空间关系的影响的推理。手动标注这些物体和摄像头的运动非常昂贵。因此,我们引入了SAT,一个包含静态和动态空间推理的数据集,共有175K个问题-答案(QA)对和20K个场景。此外,我们还利用真实世界的图像构建了一个小型但具有挑战性的动态空间测试集(包含150个图像-QA对)。利用我们提供的SAT数据集和6个现有的静态空间基准,我们系统地探讨了提高静态和动态空间意识的因素。我们的结果显示,模拟在向MLMs传授空间能力方面表现出乎意料的效用,这些能力可以应用于真实图像。我们展示了在模拟中完美标注比现有实时图像伪标注方法更有效。例如,SAT训练在多个空间基准上,包括我们的实时图像动态测试集和长视频的空间推理上,使一个LLaVA-13B模型平均提高了11%,一个LLaVA-Video-7B模型平均提高了8%,甚至超过了某些大型专有模型。虽然通过合成训练数据可以在静态关系推理方面取得进展,但仍需在动态推理方面有很大改进空间。