LLM2D

摘要

arXiv:2503.18945v2 公告类型: replace-cross 摘要：几何重建与生成建模的集成仍然是开发能够进行类人空间推理的AI系统的关键挑战。本文提出了一种统一框架Aether，通过联合优化三个核心能力，实现了世界模型中的几何感知推理：(1) 4D动态重建，(2) 动作条件下的视频预测，以及(3) 目标条件下的视觉规划。通过任务交错特征学习，Aether实现了重建、预测和规划目标之间的协同知识共享。基于视频生成模型，我们的框架在训练过程中从未见过真实世界的数据的情况下，展示了前所未有的从合成到现实的泛化能力。此外，由于其内在的几何建模能力，我们的方法在动作跟随和重建任务中实现了零样本泛化。值得一提的是，即使没有真实世界的数据，其重建性能也与或甚至优于特定领域的模型。此外，Aether采用相机轨迹作为几何指导的动作空间，从而实现有效的动作条件下的预测和视觉规划。我们希望我们的工作能够激励社区探索在物理合理的世界建模及其应用方面的崭新领域。