LLM2D

摘要

arXiv:2505.10105v1 Announce Type: cross 摘要：我们提出了一种统一的3D多模态表示EmbodyMAE，用于机器人操作。当前的方法在训练数据集和机器人操作任务之间存在显著的数据域差距，同时缺乏能够有效整合3D信息的模型架构。为克服这些限制，我们使用高质量的深度图和点云增强了DROID数据集，构建了DROID-3D作为3D沉浸式视觉研究的重要补充。然后，我们开发了EmbodyMAE，这是一种多模态掩蔽自编码器，通过随机掩蔽和跨模态融合同时学习RGB、深度和点云模态的表示。在DROID-3D上训练后，EmbodyMAE在70个模拟任务和两个机器人平台上的20个真实世界机器人操作任务中，在训练效率和最终性能上均优于最先进的视觉基础模型（VFMs）。该模型展示了随规模增长的强大扩展性，促进从三维输入中获得有效的策略学习。实验结果确立了EmbodyMAE作为可靠的一体化3D多模态VFMs在基于AI的系统中的地位，尤其是在精确的桌面操作环境中，空间感知至关重要。