LLM2D
RoboFlamingo-Plus:融合深度和RGB感知的视觉语言模型在增强机器人 manipulation 中的应用
RoboFlamingo-Plus: Fusion of Depth and RGB Perception with Vision-Language Models for Enhanced Robotic Manipulation
作者: Sheng Wang
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19510v1

摘要

arXiv:2503.19510v1 宣布类型: cross 摘要: 随着机器人技术向更复杂的多模态交互和操作任务迈进,先进的视觉-语言模型(VLMs)的集成已成为该领域的关键驱动力。尽管现有方法取得了进展,但在3D环境中融合深度和RGB信息以及执行由语言指令引导的任务方面仍存在挑战。为应对这些挑战,我们增强了现有的RoboFlamingo框架,引入了RoboFlamingo-Plus,该框架将深度数据整合到VLMs中,显著提高了机器人的操作性能。我们的研究通过将预训练的视觉变换器(ViT)与采样技术结合起来,实现了一种细致的RGB和深度信息融合,使综合数据与语言提示紧密契合,从而提高了多模态理解的水平。RoboFlamingo-Plus的创新之处在于其适应深度数据处理的输入调整,利用预训练采样器进行深度特征提取,并采用交叉注意力机制进行最佳特征整合。这些改进使RoboFlamingo-Plus不仅能够深入理解3D环境,还能够在具有挑战性的环境中轻松执行复杂的语言引导任务。实验结果显示,RoboFlamingo-Plus在现有方法的基础上将机器人操作性能提高了10-20%,标志着一个显著的进步。RoboFlamingo-Plus的代码和模型权重已公开。