摘要
arXiv:2502.00633v1 宣布类型: 新颖
摘要: 蒙特卡洛树搜索(MCTS)通过使用树的上置信限(UCT)策略在探索和利用之间达到平衡,已被证明在解决复杂规划任务方面非常有效。然而,现有的工作没有考虑基于MCTS的终身规划问题,即代理面临一系列非平稳任务——例如,具有不同转移概率和奖励的任务,这些任务在运营寿命中按顺序出现。本文提出了LiZero,用于基于MCTS的Lipschitz终身规划。我们提出了一种新的适应性UCT(aUCT)的概念,该概念可以在不同任务之间的Lipschitz连续性和蒙特卡洛动作采样的知识置信度的基础上,将知识从源任务转移到新任务的探索和利用。我们从改进的采样效率方面分析了LiZero的加速因子,并通过数据驱动和模型驱动的方法开发了高效算法以在线方式计算aUCT,其采样复杂性和误差界也得到了表征。实验结果表明,在最优奖励的快速收敛(约3到4倍)方面,LiZero在现有的MCTS和终身学习基线方法上具有显著优势。我们的结果突显了LiZero在动态实际环境下的决策和规划方面的潜在优势。