LLM2D

摘要

arXiv:2505.04860v1 宣告类型: cross 摘要：学习双臂操作具有挑战性，因为它具有高维度，并且两个手臂之间需要紧密配合。眼手协调的模仿学习，使用腕部安装的摄像头，通过关注任务相关视图简化了感知。然而，收集多样化的演示仍然代价高昂，这激发了需要可扩展的数据增强的需求。虽然先前的工作已经在单臂设置中探索了视觉增强的方法，但将这些方法扩展到双臂操作需要在两个手臂之间生成一致性视角的观察结果，并生成既有效又可行的动作标签。在本文中，我们提出了Diffusion for COordinated Dual-arm Data Augmentation (D-CODA)，一种针对眼手双臂模仿学习的离线数据增强方法。该方法训练一个扩散模型以合成新的、视角一致的手腕相机图像，并同时生成关节空间的动作标签。它使用约束优化确保涉及夹爪与物体接触的增强状态符合适用于双臂协调的约束条件。我们在5个模拟任务和3个真实世界任务上评估了D-CODA。我们的结果在2250个模拟试验和300个真实世界试验中显示，它优于基准和消融实验，表明其在眼手双臂操作中可扩展数据增强方面的潜力。我们项目的网站为：https://dcodaaug.github.io/D-CODA/。