LLM2D
Cosmos-Reason1:从物理常识到具身推理
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning
作者: NVIDIA, :, Alisson Azzolini, Hannah Brandon, Prithvijit Chattopadhyay, Huayu Chen, Jinju Chu, Yin Cui, Jenna Diamond, Yifan Ding, Francesco Ferroni, Rama Govindaraju, Jinwei Gu, Siddharth Gururani, Imad El Hanafi, Zekun Hao, Jacob Huffman, Jingyi Jin, Brendan Johnson, Rizwan Khan, George Kurian, Elena Lantz, Nayeon Lee, Zhaoshuo Li, Xuan Li, Tsung-Yi Lin, Yen-Chen Lin, Ming-Yu Liu, Alice Luo, Andrew Mathau, Yun Ni, Lindsey Pavao, Wei Ping, David W. Romero, Misha Smelyanskiy, Shuran Song, Lyne Tchapmi, Andrew Z. Wang, Boxin Wang, Haoxiang Wang, Fangyin Wei, Jiashu Xu, Yao Xu, Xiaodong Yang, Zhuolin Yang, Xiaohui Zeng, Zhe Zhang
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2503.15558v2

摘要

arXiv:2503.15558v2 通知类型: 替换 摘要:物理AI系统需要在物理世界中感知、理解和执行复杂动作。本文中,我们提出了Cosmos-Reason1模型,该模型可以在长链推理过程中通过自然语言生成适当的体态决策(例如,下一步动作)。我们首先定义了物理AI推理的关键能力,重点关注物理常识和体态推理。为了表示物理常识,我们使用了一个分层本体,捕获了关于空间、时间和物理的基本知识。在体态推理方面,我们依赖于一个二维本体,可以在不同物理体态之间进行泛化。基于这些能力,我们开发了两种多模态大型语言模型,Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我们分四个阶段整理数据并训练模型:视觉预训练、一般监督微调(SFT)、物理AI微调和物理AI强化学习(RL)作为后处理。为评估我们的模型,我们根据我们的本体构建了全面的基准测试,用于物理常识和体态推理。评估结果显示,物理AI微调和强化学习带来了显著改进。为了促进物理AI的发展,我们将按照 NVIDIA 开放模型许可证,在 https://github.com/nvidia-cosmos/cosmos-reason1 公开我们的代码和预训练模型。