LLM2D
优化速度与成功率的视觉-语言-动作模型微调
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
作者: Moo Jin Kim, Chelsea Finn, Percy Liang
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2502.19645v2

摘要

arXiv:2502.19645v2 通知类型: 替换-交叉 摘要:近期的视觉-语言-动作模型(VLAs)是基于预训练的视觉-语言模型,并利用多样的机器人数据集来展示出强大的任务执行能力、语言跟随能力和语义泛化能力。尽管取得了这些成功,但VLAs在面对新型机器人配置时表现出困难,并需要微调才能达到良好的性能,然而在众多可能的策略中,哪些是最有效的微调策略并不明确。在此项工作中,我们研究了关键的VLA适应设计选择,如不同的动作解码方案、动作表示和微调中的学习目标,使用OpenVLA作为代表性的基模型。我们的实证分析为集成并行解码、动作分块、连续的动作表示以及基于L1回归的学习目标的优化微调(OFT)食谱提供建议,以改善推理效率、策略性能和模型输入输出规范的灵活性。我们提出了OpenVLA-OFT,这是一个这款食谱的实现,它在LIBERO仿真基准测试中达到了新的最先进的状态,将OpenVLA在四个任务套件中的平均成功率从76.5%提高到97.1%,并增加了动作生成吞吐量26倍。在实际评估中,我们的微调食谱使OpenVLA能够成功执行双臂ALOHA机器人的灵巧、高频率控制任务,并且在平均成功率上超过了使用其默认食谱微调的其他VLAs($\pi_0$和RDT-1B),以及从零开始训练的强大的模仿学习策略(Diffusion Policy和ACT),最多提高了15%。我们在https://openvla-oft.github.io/上发布了OFT的代码和预训练模型检查点。