LLM2D

摘要

扩散模型在机器人模仿学习中得到了快速应用，使自主执行复杂的灵巧任务成为可能。然而，动作合成通常很慢，需要许多步骤的迭代去噪，限制了模型在需要快速反应策略的任务中的应用范围。为了解决这个问题，最近的一些工作探索了如何利用扩散过程的蒸馏来加速策略合成。然而，蒸馏计算量大，会损害合成动作的准确性和多样性。我们提出了一种名为 SDP（流式扩散策略）的替代方法来加速策略合成，该方法利用了这样的见解：生成部分去噪的动作轨迹比生成完整的输出动作轨迹快得多。在每次观察时，我们的方法输出一个部分去噪的动作轨迹，其噪声污染程度可变，其中要执行的立即动作是无噪声的，后续动作具有越来越高的噪声和不确定性。对于新观察的部分去噪动作轨迹可以通过对先前预测的噪声动作轨迹（向前滚动一个时间步长）进行几步去噪来快速生成。我们在模拟和真实世界环境中都证明了这种方法的有效性，它显著地加快了策略合成速度，同时保持了性能。