LLM2D

摘要

将强化学习框架化为序列建模问题，最近的研究使生成模型（例如扩散模型）能够用于规划。虽然这些模型在预测确定性环境中的长时程状态轨迹方面很有效，但它们在存在移动障碍物的动态环境中面临挑战。有效的避碰需要持续监测和自适应决策。虽然在每个时间步重新规划可以确保安全，但由于重复预测重叠状态序列，它会带来大量的计算开销——对于扩散模型来说，这是一个特别昂贵的过程，因为它们以密集的迭代采样过程而闻名。我们提出了一种自适应生成规划方法，该方法根据动作预测的不确定性动态调整重新规划频率。我们的方法最大限度地减少了对频繁、计算量大且冗余的重新规划的需求，同时保持了强大的避碰性能。在实验中，我们获得了平均轨迹长度 13.5% 的增长和平均奖励 12.7% 的增长，超过了长时程规划，这表明碰撞率降低以及在环境中安全导航的能力得到提高。