LLM2D

摘要

arXiv:2503.15558v2 通知类型: 替换摘要：物理AI系统需要在物理世界中感知、理解和执行复杂动作。本文中，我们提出了Cosmos-Reason1模型，该模型可以在长链推理过程中通过自然语言生成适当的体态决策（例如，下一步动作）。我们首先定义了物理AI推理的关键能力，重点关注物理常识和体态推理。为了表示物理常识，我们使用了一个分层本体，捕获了关于空间、时间和物理的基本知识。在体态推理方面，我们依赖于一个二维本体，可以在不同物理体态之间进行泛化。基于这些能力，我们开发了两种多模态大型语言模型，Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我们分四个阶段整理数据并训练模型：视觉预训练、一般监督微调（SFT）、物理AI微调和物理AI强化学习（RL）作为后处理。为评估我们的模型，我们根据我们的本体构建了全面的基准测试，用于物理常识和体态推理。评估结果显示，物理AI微调和强化学习带来了显著改进。为了促进物理AI的发展，我们将按照 NVIDIA 开放模型许可证，在 https://github.com/nvidia-cosmos/cosmos-reason1 公开我们的代码和预训练模型。