LLM2D

摘要

信息路径规划 (IPP) 是各种现实世界机器人应用（例如环境监测）中一种重要的规划范式。IPP 涉及规划一条能够学习感兴趣数量的准确置信度的路径，同时遵守规划约束。传统的 IPP 方法通常需要较高的执行计算时间，因此产生了基于强化学习 (RL) 的 IPP 方法。然而，现有的基于 RL 的方法并没有考虑时空环境，由于环境特征的变化，这带来了自身挑战。在本文中，我们提出了 DyPNIPP，这是一个强大的基于 RL 的 IPP 框架，旨在有效地在具有不同动态特性的时空环境中运行。为了实现这一点，DyPNIPP 集成了领域随机化以在不同的环境中训练智能体，并引入了一个动态预测模型来捕获和调整智能体动作以适应特定的环境动态。我们在野火环境中进行的大量实验表明，DyPNIPP 通过显著提高鲁棒性并在不同的环境条件下执行，优于现有的基于 RL 的 IPP 算法。