摘要
将强化学习框架化为序列建模问题,最近的研究使生成模型(例如扩散模型)能够用于规划。虽然这些模型在预测确定性环境中的长时程状态轨迹方面很有效,但它们在存在移动障碍物的动态环境中面临挑战。有效的避碰需要持续监测和自适应决策。虽然在每个时间步重新规划可以确保安全,但由于重复预测重叠状态序列,它会带来大量的计算开销——对于扩散模型来说,这是一个特别昂贵的过程,因为它们以密集的迭代采样过程而闻名。我们提出了一种自适应生成规划方法,该方法根据动作预测的不确定性动态调整重新规划频率。我们的方法最大限度地减少了对频繁、计算量大且冗余的重新规划的需求,同时保持了强大的避碰性能。在实验中,我们获得了平均轨迹长度 13.5% 的增长和平均奖励 12.7% 的增长,超过了长时程规划,这表明碰撞率降低以及在环境中安全导航的能力得到提高。