摘要
arXiv:2502.05450v2 宣告类型: replace-cross
摘要:视觉-语言-动作(VLA)模型在实际机器人操作中展现了巨大的潜力。然而,通过监督学习对这些模型进行微调,由于演示数据有限且不一致,尤其是在富含接触的环境中,难以实现稳健的性能。在本文中,我们提出了一种针对VLA模型的增强微调方法,名为ConRFT,该方法包括基于统一一致性的离线和在线微调,以应对这些挑战。在离线阶段,我们的方法结合了行为克隆和Q学习,有效地从少量的演示数据中提取策略,并稳定价值估计。在在线阶段,VLA模型通过一致性策略进一步微调,并通过人类干预确保安全探索和高样本效率。我们在八个不同的真实世界操作任务上评估了该方法。在45-90分钟的在线微调后,其平均成功率达到了96.3%,与之前的监督方法相比,成功率为144%的提升,并且每个任务的时间长度缩短了1.9倍。这项工作突显了将强化学习整合到VLA模型中以增强其在真实世界机器人应用中的性能的潜力。我们项目的视频和代码可在我们的项目网站https://cccedric.github.io/conrft/ 上获得。