LLM2D
MetaSpatial:增强元宇宙中VLMs的3D空间推理能力
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse
作者: Zhenyu Pan, Han Liu
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18470v1

摘要

arXiv:2503.18470v1 类别: cross 摘要: 我们提出了MetaSpatial,这是第一个基于强化学习(RL)的框架,旨在增强视觉语言模型(VLMs)的三维空间推理能力,从而无需硬编码优化即可实现实时三维场景生成。MetaSpatial解决了两个核心挑战:(i) 视觉语言模型内部缺乏三维空间推理能力,限制了它们生成逼真布局的能力;(ii) 传统监督微调(SFT)在布局生成任务中效率低下,因为完美的 ground truth 注释不可用。我们的主要创新是一个基于多回合RL的优化机制,它将物理感知约束和渲染图像评估结合起来,确保生成的三维布局具有连贯性、物理可信性和美学一致性。方法上,MetaSpatial引入了一种自适应、迭代的推理过程,其中视觉语言模型通过分析渲染输出,在多回合中逐步细化空间排列,逐阶段提高场景的连贯性。实证评估表明,MetaSpatial显著提高了各种规模模型的空间一致性与格式稳定性。训练后,物体放置更为真实、对齐且功能协调,验证了RL在元宇宙、AR/VR、数字孪生和游戏开发等应用中的三维空间推理有效性。我们的代码、数据和训练管道可在 https://github.com/PzySeere/MetaSpatial 公开获取。