LLM2D

摘要

arXiv:2503.18945v1 宣告类型: cross 摘要: 在开发能够进行类人类空间推理的AI系统时，几何重建与生成建模的融合仍然是一项关键挑战。本文提出Aether，一种统一框架，通过联合优化三种核心能力，实现了世界模型中的几何感知推理：(1) 4D动态重建，(2) 动作条件下的视频预测，以及(3) 目标条件下的视觉规划。通过任务交错特征学习，Aether实现了重建、预测和规划目标之间的协同知识共享。基于视频生成模型，我们的框架在训练过程中从未观察到真实世界数据的情况下，实现了前所未有的合成到真实世界的泛化能力。此外，由于其内在的几何建模能力，我们的方法在行动跟随和重建任务中实现了零样本泛化。令人惊讶的是，即使没有真实世界的数据，其重建性能也远远超过了领域特定的模型。此外，Aether利用了一个几何信息指导的动作空间，使得预测能够无缝地转化为动作，从而使自主轨迹规划得以有效实现。我们希望我们的工作能够激励社区探索物理合理的世界建模及其应用的新前沿。