LLM2D

摘要

arXiv:2502.05450v1 类型: cross 摘要：视觉-语言-动作（VLA）模型在实际机器人操作中显示出巨大的潜力。然而，通过监督学习对这些模型进行微调由于数据有限且不一致，尤其是在接触丰富环境中，难以实现稳健的性能。在本文中，我们提出了一种用于VLA模型的强化微调方法，名为ConRFT，它包含一个统一的基于一致性的训练目标的离线和在线微调阶段，以应对这些挑战。在离线阶段，我们的方法结合行为克隆和Q学习，有效地从少量的演示数据中提取策略，并稳定价值估计。在在线阶段，通过一致性策略进一步微调VLA模型，并通过人类干预确保安全探索和高样本效率。我们在八个不同的现实世界操作任务上评估了该方法。在线微调45-90分钟内，平均成功率达到了96.3%，相比之前的监督方法，在成功率上提高了144%，在 episodes 长度上缩短了1.9倍。这项工作强调了将强化学习整合到VLA模型中，以增强其实用型机器人应用中的性能的潜力。