LLM2D

摘要

arXiv:2504.01980v2 Announce Type: replace-cross 摘要：移动机器人自主探索受两个竞争目标的驱动：覆盖率，以彻底地观察环境；路径长度，以尽可能短的路径完成观察。虽然在不知道未知信息的情况下难以评估最佳行动方案，但未知信息可以通过模型、地图或常识来理解。然而，先前的研究表明，通过此类先验知识提高信息增益的估计会导致贪婪行为，最终导致回溯，从而降低覆盖率。事实上，任何信息增益最大化都会表现出这种行为，即使没有先验知识也会如此。任务完成时获得的信息是恒定的，无法最大化。因此，将其作为优化目标是不合适的。相反，信息增益是一个决策标准，用于确定哪些候选状态仍应考虑进行探索。任务因此变为使用最短的总路径达到完成状态。由于确定最短路径通常不可行，因此有必要依赖启发式方法或估计来识别能最小化总路径长度的候选状态。为了解决这个问题，我们提出了一种启发式方法，通过偏好距离机器人较近但与其他候选状态较远的候选状态来减少回溯行为。我们通过模拟评估了所提启发式方法与基于信息增益的方法和前沿探索方法的性能，并展示了在有和无环境先验知识的情况下，我们的方法显著减少了总路径长度。