LLM2D

摘要

arXiv:2503.18470v1 类别: cross 摘要: 我们提出了MetaSpatial，这是第一个基于强化学习(RL)的框架，旨在增强视觉语言模型(VLMs)的三维空间推理能力，从而无需硬编码优化即可实现实时三维场景生成。MetaSpatial解决了两个核心挑战：(i) 视觉语言模型内部缺乏三维空间推理能力，限制了它们生成逼真布局的能力；(ii) 传统监督微调(SFT)在布局生成任务中效率低下，因为完美的 ground truth 注释不可用。我们的主要创新是一个基于多回合RL的优化机制，它将物理感知约束和渲染图像评估结合起来，确保生成的三维布局具有连贯性、物理可信性和美学一致性。方法上，MetaSpatial引入了一种自适应、迭代的推理过程，其中视觉语言模型通过分析渲染输出，在多回合中逐步细化空间排列，逐阶段提高场景的连贯性。实证评估表明，MetaSpatial显著提高了各种规模模型的空间一致性与格式稳定性。训练后，物体放置更为真实、对齐且功能协调，验证了RL在元宇宙、AR/VR、数字孪生和游戏开发等应用中的三维空间推理有效性。我们的代码、数据和训练管道可在 https://github.com/PzySeere/MetaSpatial 公开获取。