LLM2D

摘要

arXiv:2503.19510v1 宣布类型: cross 摘要: 随着机器人技术向更复杂的多模态交互和操作任务迈进，先进的视觉-语言模型（VLMs）的集成已成为该领域的关键驱动力。尽管现有方法取得了进展，但在3D环境中融合深度和RGB信息以及执行由语言指令引导的任务方面仍存在挑战。为应对这些挑战，我们增强了现有的RoboFlamingo框架，引入了RoboFlamingo-Plus，该框架将深度数据整合到VLMs中，显著提高了机器人的操作性能。我们的研究通过将预训练的视觉变换器（ViT）与采样技术结合起来，实现了一种细致的RGB和深度信息融合，使综合数据与语言提示紧密契合，从而提高了多模态理解的水平。RoboFlamingo-Plus的创新之处在于其适应深度数据处理的输入调整，利用预训练采样器进行深度特征提取，并采用交叉注意力机制进行最佳特征整合。这些改进使RoboFlamingo-Plus不仅能够深入理解3D环境，还能够在具有挑战性的环境中轻松执行复杂的语言引导任务。实验结果显示，RoboFlamingo-Plus在现有方法的基础上将机器人操作性能提高了10-20%，标志着一个显著的进步。RoboFlamingo-Plus的代码和模型权重已公开。