摘要
arXiv:2503.15558v2 通知类型: 替换
摘要:物理AI系统需要在物理世界中感知、理解和执行复杂动作。本文中,我们提出了Cosmos-Reason1模型,该模型可以在长链推理过程中通过自然语言生成适当的体态决策(例如,下一步动作)。我们首先定义了物理AI推理的关键能力,重点关注物理常识和体态推理。为了表示物理常识,我们使用了一个分层本体,捕获了关于空间、时间和物理的基本知识。在体态推理方面,我们依赖于一个二维本体,可以在不同物理体态之间进行泛化。基于这些能力,我们开发了两种多模态大型语言模型,Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我们分四个阶段整理数据并训练模型:视觉预训练、一般监督微调(SFT)、物理AI微调和物理AI强化学习(RL)作为后处理。为评估我们的模型,我们根据我们的本体构建了全面的基准测试,用于物理常识和体态推理。评估结果显示,物理AI微调和强化学习带来了显著改进。为了促进物理AI的发展,我们将按照 NVIDIA 开放模型许可证,在 https://github.com/nvidia-cosmos/cosmos-reason1 公开我们的代码和预训练模型。