LLM2D

摘要

信息型路径规划 (IPP) 是机器人学中的一项关键任务，其中代理必须设计路径以收集有关目标环境的有价值信息，同时遵守资源约束。强化学习 (RL) 已被证明对 IPP 很有效，但是，它需要环境交互，这在实践中存在风险且成本高昂。为了解决这个问题，我们提出了一种基于离线 RL 的 IPP 框架，该框架在训练期间无需实时交互即可优化信息增益，通过避免交互提供安全性和成本效益，以及在执行期间提供卓越的性能和快速计算——RL 的主要优势。我们的框架利用批约束强化学习来减轻外推误差，使代理能够从任意算法生成的预先收集的数据集中学习。我们通过广泛的模拟和真实世界实验验证了该框架。数值结果表明，我们的框架优于基线，证明了所提出方法的有效性。