LLM2D

摘要

arXiv:2505.00787v1 宣称类型: cross 摘要: 多任务强化学习旨在通过最少或无需额外环境交互来快速识别新任务的解决方案。通用策略改进(GPI)通过组合一组基策略来生成一个新的策略，该新策略至少与任何一个基策略一样好，尽管不一定是最优的。特别在线性奖励的情况下，可以通过计算凸覆盖集(CCS)的方法来确保最优性。然而，这些方法计算成本高昂且难以扩展到复杂领域。选项键盘(OK)改进了GPI，通过生成至少与任何一个基策略一样好、甚至更好的策略。这通过一个通过学习的元策略动态组合基策略来实现。然而，其性能严重依赖于基策略的选择。这引发了一个关键问题：是否存在一个最优的基策略集——最优行为基——使得对于任何线性任务都能零样本识别出最优解决方案？我们通过引入一种新的方法解决了这个问题，该方法高效地构建了这样一个最优行为基。我们展示了这种方法在新的任务中确保最优性时所需的基本策略数量大幅减少。我们还证明，它比CCS更具有表达能力，使得特定类型的非线性任务能够被最优地解决。我们在具有挑战性的领域中实验性地评估了该技术，并展示了与现有最佳方法相比，其表现更优，并且随着任务复杂度的增加，这种优势更加明显。