LLM2D

摘要

arXiv:2411.02788v2 宣布类型: replace-cross 摘要：在标准的导航流水线中，机器人在每一个时间步都会进行局部化以降低导航误差。然而，在某些场景中，机器人需要在获取观测信息昂贵时选择性地进行局部化。例如，水下机器人频繁浮出水面进行局部化会妨碍其在水下寻找关键物品，如坠毁飞机的黑匣子。另一方面，如果机器人从未进行过局部化，那么由于状态估计不佳而导致的失败会导致它无意中离开搜索区域或进入危险、受限的区域。受这些场景的启发，我们研究了帮助机器人决定何时进行局部化的策略。我们将这个问题表述为一个多目标优化问题：在确保失败概率（由于碰撞或未达到预期目标）保持在一定界限内的前提下，最小化局部化动作的数量。在最近的工作中，我们展示了如何将这个主动局部化问题形式化为约束部分可观测量马尔可夫决策过程（POMDP），并使用在线POMDP解算器来解决。然而，这种方法太慢，需要完全了解机器人的状态转移和观测模型。在本文中，我们提出了RiskRL，一个克服这些限制的约束强化学习（RL）框架。RiskRL 使用粒子滤波和递归Soft Actor-Critic网络来学习一个策略，该策略在满足失败概率约束的情况下最小化局部化动作的数量。我们的数值实验表明，RiskRL 学习到一个稳健的策略，当穿越未见过的测试环境时，成功率至少提高了26%。