LLM2D

摘要

arXiv:2502.19645v2 通知类型: 替换-交叉摘要：近期的视觉-语言-动作模型（VLAs）是基于预训练的视觉-语言模型，并利用多样的机器人数据集来展示出强大的任务执行能力、语言跟随能力和语义泛化能力。尽管取得了这些成功，但VLAs在面对新型机器人配置时表现出困难，并需要微调才能达到良好的性能，然而在众多可能的策略中，哪些是最有效的微调策略并不明确。在此项工作中，我们研究了关键的VLA适应设计选择，如不同的动作解码方案、动作表示和微调中的学习目标，使用OpenVLA作为代表性的基模型。我们的实证分析为集成并行解码、动作分块、连续的动作表示以及基于L1回归的学习目标的优化微调（OFT）食谱提供建议，以改善推理效率、策略性能和模型输入输出规范的灵活性。我们提出了OpenVLA-OFT，这是一个这款食谱的实现，它在LIBERO仿真基准测试中达到了新的最先进的状态，将OpenVLA在四个任务套件中的平均成功率从76.5%提高到97.1%，并增加了动作生成吞吐量26倍。在实际评估中，我们的微调食谱使OpenVLA能够成功执行双臂ALOHA机器人的灵巧、高频率控制任务，并且在平均成功率上超过了使用其默认食谱微调的其他VLAs（$\pi_0$和RDT-1B），以及从零开始训练的强大的模仿学习策略（Diffusion Policy和ACT），最多提高了15%。我们在https://openvla-oft.github.io/上发布了OFT的代码和预训练模型检查点。