LLM2D

摘要

arXiv:2502.05450v2 宣告类型: replace-cross 摘要：视觉-语言-动作(VLA)模型在实际机器人操作中展现了巨大的潜力。然而，通过监督学习对这些模型进行微调，由于演示数据有限且不一致，尤其是在富含接触的环境中，难以实现稳健的性能。在本文中，我们提出了一种针对VLA模型的增强微调方法，名为ConRFT，该方法包括基于统一一致性的离线和在线微调，以应对这些挑战。在离线阶段，我们的方法结合了行为克隆和Q学习，有效地从少量的演示数据中提取策略，并稳定价值估计。在在线阶段，VLA模型通过一致性策略进一步微调，并通过人类干预确保安全探索和高样本效率。我们在八个不同的真实世界操作任务上评估了该方法。在45-90分钟的在线微调后，其平均成功率达到了96.3%，与之前的监督方法相比，成功率为144%的提升，并且每个任务的时间长度缩短了1.9倍。这项工作突显了将强化学习整合到VLA模型中以增强其在真实世界机器人应用中的性能的潜力。我们项目的视频和代码可在我们的项目网站https://cccedric.github.io/conrft/ 上获得。