摘要
基于扩散的模仿学习改进了多模态决策中的行为克隆(BC),但由于扩散过程中的递归,推理速度显著降低。这促使我们设计高效的策略生成器,同时保持生成多样化动作的能力。为了应对这一挑战,我们提出了AdaFlow,一个基于流生成模型的模仿学习框架。AdaFlow用状态条件常微分方程(ODE)表示策略,这些方程被称为概率流。我们揭示了它们的训练损失的条件方差与ODE的离散化误差之间一个有趣的联系。基于此认识,我们提出了一种方差自适应ODE求解器,它可以在推理阶段调整步长,使AdaFlow成为一个自适应决策者,在不牺牲多样性的情况下提供快速推理。有趣的是,当动作分布为单模态时,它会自动简化为一步生成器。我们全面的实证评估表明,AdaFlow以快速推理速度实现了高性能。