LLM2D

摘要

在随机部分可观察域中执行任务以完成任务是人工智能中的一个重要问题，通常被表述为基于目标的 POMDP。基于目标的 POMDP 可以使用 RTDP-BEL 算法来解决，该算法通过从初始信念到目标运行正向轨迹来运行。这些轨迹可以由启发式方法引导，更准确的启发式方法可以导致显著更快的收敛。在本文中，我们开发了一种利用领域模型结构化表示的启发式函数。我们在一个松弛的空间中计算一个计划来实现目标，同时考虑到信息的价值以及随机效应。我们提供的实验表明，虽然我们的启发式方法计算速度较慢，但在收敛之前它需要的轨迹数量要少一个数量级。总的来说，它因此加速了 RTDP-BEL，特别是在需要大量信息收集的问题中。