LLM2D
Cosmos-Transfer1:基于自适应多模态控制的条件世界生成
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control
作者: NVIDIA, :, Hassan Abu Alhaija, Jose Alvarez, Maciej Bala, Tiffany Cai, Tianshi Cao, Liz Cha, Joshua Chen, Mike Chen, Francesco Ferroni, Sanja Fidler, Dieter Fox, Yunhao Ge, Jinwei Gu, Ali Hassani, Michael Isaev, Pooya Jannaty, Shiyi Lan, Tobias Lasser, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Fabio Ramos, Xuanchi Ren, Tianchang Shen, Xinglong Sun, Shitao Tang, Ting-Chun Wang, Jay Wu, Jiashu Xu, Stella Xu, Kevin Xie, Yuchong Ye, Xiaodong Yang, Xiaohui Zeng, Yu Zeng
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2503.14492v2

摘要

arXiv:2503.14492v2 更改类型: replace-cross 摘要: 我们引入了Cosmos-Transfer,这是一种基于多种空间控制输入的世界生成模型,这些输入具有各种模态,如分割、深度和边缘。在设计中,空间条件方案是可适应和可定制的。它允许在不同的空间位置对不同的条件输入进行不同的加权。这使得世界生成具有高度可控性,并在各种从世界到世界的传输用例中找到用途,包括Sim2Real。我们进行了广泛评估以分析所提模型,并展示了其在物理AI中的应用,包括机器人Sim2Real和自动驾驶车辆数据增强。我们进一步展示了实现实时世界生成的推理缩放策略,使用了一块NVIDIA GB200 NVL72 橱柜。为了帮助在该领域的研究开发加速,我们在https://github.com/nvidia-cosmos/cosmos-transfer1上开源了我们的模型和代码。