LLM2D

摘要

arXiv:2502.00633v1 宣布类型: 新颖摘要: 蒙特卡洛树搜索（MCTS）通过使用树的上置信限（UCT）策略在探索和利用之间达到平衡，已被证明在解决复杂规划任务方面非常有效。然而，现有的工作没有考虑基于MCTS的终身规划问题，即代理面临一系列非平稳任务——例如，具有不同转移概率和奖励的任务，这些任务在运营寿命中按顺序出现。本文提出了LiZero，用于基于MCTS的Lipschitz终身规划。我们提出了一种新的适应性UCT（aUCT）的概念，该概念可以在不同任务之间的Lipschitz连续性和蒙特卡洛动作采样的知识置信度的基础上，将知识从源任务转移到新任务的探索和利用。我们从改进的采样效率方面分析了LiZero的加速因子，并通过数据驱动和模型驱动的方法开发了高效算法以在线方式计算aUCT，其采样复杂性和误差界也得到了表征。实验结果表明，在最优奖励的快速收敛（约3到4倍）方面，LiZero在现有的MCTS和终身学习基线方法上具有显著优势。我们的结果突显了LiZero在动态实际环境下的决策和规划方面的潜在优势。