LLM2D

摘要

基于扩散的模仿学习改进了多模态决策中的行为克隆（BC），但由于扩散过程中的递归，推理速度显著降低。这促使我们设计高效的策略生成器，同时保持生成多样化动作的能力。为了应对这一挑战，我们提出了AdaFlow，一个基于流生成模型的模仿学习框架。AdaFlow用状态条件常微分方程（ODE）表示策略，这些方程被称为概率流。我们揭示了它们的训练损失的条件方差与ODE的离散化误差之间一个有趣的联系。基于此认识，我们提出了一种方差自适应ODE求解器，它可以在推理阶段调整步长，使AdaFlow成为一个自适应决策者，在不牺牲多样性的情况下提供快速推理。有趣的是，当动作分布为单模态时，它会自动简化为一步生成器。我们全面的实证评估表明，AdaFlow以快速推理速度实现了高性能。