LLM2D

摘要

在强化学习中，由于状态-动作空间的扩展性，高效的多智能体探索一直是一个长期存在的挑战。尽管追求新颖性、多样性或不确定性越来越受到关注，但缺乏适当指导选择的探索所带来的重复努力对该领域来说是一个实际问题。本文介绍了一种名为 LEMAE 的系统方法，该方法选择从一个知识渊博的大型语言模型 (LLM) 中获取信息丰富的任务相关指导，以实现高效的多智能体探索。具体来说，我们将 LLM 的语言知识以判别的方式嵌入到符号关键状态中，这些关键状态对于任务完成至关重要，并且 LLM 推理成本很低。为了发挥关键状态的作用，我们设计了基于子空间的后见式内在奖励 (SHIR)，通过增加奖励密度来引导智能体朝向关键状态。此外，我们构建了关键状态记忆树 (KSMT)，以跟踪特定任务中关键状态之间的转换，以实现有组织的探索。得益于减少了重复探索，LEMAE 在具有挑战性的基准测试（例如 SMAC 和 MPE）上明显优于现有的最先进方法，在某些情况下实现了 10 倍的加速。