LLM2D

摘要

arXiv:2504.18471v1 声明类型：交叉摘要：机器人领域的持续学习致力于构建能够不断适应变化的环境和任务的系统，模仿人类的适应能力。一个关键挑战是在规划和控制过程中不断改进动力学模型，同时解决诸如安全适应、灾难性遗忘、异常值管理、数据效率以及平衡探索与利用等方面的问题——所有这些都在任务和机载资源的约束条件下进行。为了实现这一目标，我们引入了一种利用流匹配的生成框架，用于在线对齐机器人动力学模型。我们并不是基于一个对齐不好的模型执行动作，而是改进计划的动作，使其更好地与如果模型对齐良好时机器人本应采取的动作相匹配。我们发现，通过变换动作本身而不是探索一个对齐不好的模型——这是传统做法——机器人可以更有效地收集有价值的数据，从而加速学习。此外，我们验证了该方法可以处理一个不断演化且可能不完美的模型，同时如果需要，可以减少对重播缓冲区或遗留模型快照的依赖。我们使用两个平台验证了我们的方法：无人驾驶地面车辆和四旋翼无人机。结果突显了该方法的适应性和效率，创下任务成功率34.2%的最高记录，展示了其在促进持续机器人学习中的潜力。代码：https://github.com/AlejandroMllo/action_flow_matching