摘要
信息型路径规划 (IPP) 是机器人学中的一项关键任务,其中代理必须设计路径以收集有关目标环境的有价值信息,同时遵守资源约束。强化学习 (RL) 已被证明对 IPP 很有效,但是,它需要环境交互,这在实践中存在风险且成本高昂。为了解决这个问题,我们提出了一种基于离线 RL 的 IPP 框架,该框架在训练期间无需实时交互即可优化信息增益,通过避免交互提供安全性和成本效益,以及在执行期间提供卓越的性能和快速计算——RL 的主要优势。我们的框架利用批约束强化学习来减轻外推误差,使代理能够从任意算法生成的预先收集的数据集中学习。我们通过广泛的模拟和真实世界实验验证了该框架。数值结果表明,我们的框架优于基线,证明了所提出方法的有效性。