摘要
arXiv:2502.05450v1 类型: cross
摘要:视觉-语言-动作(VLA)模型在实际机器人操作中显示出巨大的潜力。然而,通过监督学习对这些模型进行微调由于数据有限且不一致,尤其是在接触丰富环境中,难以实现稳健的性能。在本文中,我们提出了一种用于VLA模型的强化微调方法,名为ConRFT,它包含一个统一的基于一致性的训练目标的离线和在线微调阶段,以应对这些挑战。在离线阶段,我们的方法结合行为克隆和Q学习,有效地从少量的演示数据中提取策略,并稳定价值估计。在在线阶段,通过一致性策略进一步微调VLA模型,并通过人类干预确保安全探索和高样本效率。我们在八个不同的现实世界操作任务上评估了该方法。在线微调45-90分钟内,平均成功率达到了96.3%,相比之前的监督方法,在成功率上提高了144%,在 episodes 长度上缩短了1.9倍。这项工作强调了将强化学习整合到VLA模型中,以增强其实用型机器人应用中的性能的潜力。