LLM2D
信息增益并非全需
Information Gain Is Not All You Need
作者: Ludvig Ericson, Jos\'e Pedro, Patric Jensfelt
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.01980v3

摘要

arXiv:2504.01980v3 公告类型: 替换-交叉 摘要:移动机器人领域的自主探索往往需要在两个目标之间进行权衡:最大化环境覆盖和最小化总路径长度。在广泛使用的信息增益范式中,探索是依据观测的预期值进行引导的。虽然在预算受限的环境中这种方法非常有效,即只能进行有限的观测次数,但在质量受限的场景中,即机器人必须以一定的置信度或质量完全探索环境时,这种方法就无法与实际目标相匹配。在这种情况下,总信息增益实际上已经固定,因此每步都试图最大化信息增益可能会导致不高效的、贪婪的行为和不必要的回溯。本文认为,在质量受限的探索中,信息增益不应作为优化目标。相反,它应该用来过滤可行的候选动作。我们提出了一种新的启发式方法——距离优势,它基于接近机器人和远离其他前沿区域之间的权衡来选择候选前沿。该启发式方法的目标是在机器人有机会高效访问这些孤立区域之前,优先探索这些区域,从而减少未来的曲折路径。我们通过模拟环境中的经典基于前沿的探索方法和最大信息增益方法来评估我们的方法。结果表明,距离优势在各种环境中显著减少了总路径长度,无论是有先验地图预测还是没有。我们的研究结果挑战了更准确的信息增益估计能够提高性能的假设,并为质量受限的探索范式提供了一个更合适的替代方案。