LLM2D

摘要

arXiv:2211.13316v4 宣告类型: 修改摘要: 我们研究了使用神经网络学习经典规划任务中的良好启发式函数的问题，这些启发式函数基于用状态及其到目标的成本估计表示的样本。启发式函数在一个受限样本集的状态空间和目标条件下进行学习，必须能够很好地泛化到状态空间中具有相同目标条件的所有状态。我们的主要目标是更好地理解生成样本集算法对由学习得到的启发式函数引导的贪婪最佳优先搜索（GBFS）性能的影响。在一系列受控实验中，我们发现两个主要因素决定了学习启发式函数的质量：用于生成样本集的算法以及样本估计与完美成本到目标之间的接近程度。这两个因素相互依赖：如果样本在状态空间中的分布不均，即使有完美的成本到目标估计也无济于事。我们还研究了其他效应，例如添加具有高价值估计的样本。基于我们的发现，我们提出了实用策略以提高学习启发式的质量：旨在生成更多代表性状态的三种策略和改善成本到目标估计的两种策略。我们的实用策略导致了在引导GBFS算法时，与基准学习启发式相比，平均覆盖度提高了超过30%的学习启发式。