LLM2D

摘要

AlphaZero/MuZero (A/MZ) 系列算法通过将蒙特卡洛树搜索 (MCTS) 与学习模型相结合，在各种具有挑战性的领域取得了显著成功。学习模型引入了认知不确定性，这种不确定性是由有限数据学习造成的，在稀疏奖励环境中对探索很有用。然而，MCTS 并没有考虑这种不确定性的传播。为了解决这个问题，我们引入了认知 MCTS (EMCTS)：一种理论上有根据的方法，可以解释搜索中的认知不确定性，并利用搜索进行深度探索。在编写汇编语言 SUBLEQ 代码的具有挑战性的稀疏奖励任务中，与我们的方法配对的 AZ 在样本效率方面明显高于基线 AZ。使用 EMCTS 的搜索解决了常用的硬探索基准 Deep Sea 的变体 - 基线 A/MZ 实际上无法解决 - 比没有使用搜索进行不确定性估计的等效方法快得多，证明了搜索用于认知不确定性估计的显著优势。