LLM2D

摘要

扩散模型在机器人模仿学习中得到了快速应用，使得复杂灵巧任务的自动执行成为可能。然而，动作生成通常较慢，需要多步迭代去噪，限制了模型在需要快速反应策略的任务中的使用。为了绕过这一问题，最近的研究探索了如何通过扩散过程蒸馏来加速策略生成。然而，蒸馏计算成本高，并且可能损害生成动作的准确性和多样性。我们提出了SDP（流式扩散策略），这是一种加速策略生成的替代方法，利用了生成部分去噪的动作轨迹比生成完全输出的动作轨迹快得多的见解。在每次观察时，我们的方法输出一个具有可变噪声污染水平的部分去噪动作轨迹，立即执行的动作是无噪声的，后续动作则具有逐渐增加的噪声和不确定性。对于新的观察，可以通过对先前预测的噪声动作轨迹（按一个时间步滚动）应用几步去噪，快速生成部分去噪的动作轨迹。我们展示了这一方法的有效性，在模拟和现实环境中显著加快策略生成速度，同时保持性能。