LLM2D
epistemic 象征性知识,翻译成中文即“知识性”。所以翻译后的标题为: 知识性蒙特卡洛树搜索
Epistemic Monte Carlo Tree Search
作者: Yaniv Oren, Villiam Vadocz, Matthijs T. J. Spaan, Wendelin B\"ohmer
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2210.13455v5

摘要

arXiv:2210.13455v5 公告类型: 替换-交叉 摘要:AlphaZero/MuZero(A/MZ)家族的算法通过将蒙特卡洛树搜索(MCTS)与学习模型结合,已经在众多充满挑战的领域中取得了显著的成功。学习模型引入了认识不确定性,这种不确定性是由于从有限的数据中学习所引起的,在稀疏奖励环境中对于探索非常有用。然而,MCTS 并未考虑这种不确定性的传播。为了解决这个问题,我们引入了认识不确定性蒙特卡洛树搜索(Epistemic MCTS,EMCTS):一种在搜索过程中考虑认识不确定性的理论动机方法,并利用搜索进行深入探索。在 Assembly 语言 {\sc subleq} 中编写代码这一具有挑战性的稀疏奖励任务中,结合我们方法的 AZ 较基准 AZ 在样本效率上获得了显著提升。使用 EMCTS 进行搜索比那种不使用搜索进行不确定性估计的等效方法更快地解决了标准困难探索基准 Deep Sea 的变体,这表明了对认识不确定性进行估计时搜索的优势。