LLM2D

摘要

arXiv:2504.12961v1 声明类型：cross 摘要：在多方强化学习（MARL）中，责任分配仍然是一个基本的挑战。先前的研究主要通过在集中训练与分散执行框架下的价值分解方法来解决这一问题，其中神经网络被用于近似个体Q值与全局Q值之间的非线性关系。尽管这些方法在各种基准任务中取得了显著的成功，但它们仍然存在一些局限性，包括贡献分配不够精确、解释性有限以及在高维状态空间中扩展性较差。为了应对这些挑战，我们提出了一种新的算法——\textbf{QLLM}，该算法利用大型语言模型（LLMs）自动构建责任分配函数。具体来说，引入了\textbf{TFCAF}的概念，其中责任分配过程被表示为直接且表达性强的非线性函数公式。进一步采用自定义设计的\textit{编码-评估}框架来引导LLMs生成、验证和完善可执行代码，显著减轻了推理过程中幻觉和浅层推理等问题。在几个标准MARL基准测试上的广泛实验表明，所提出的方法一致地优于现有的最先进的基线方法。此外，QLLM展示了强大的泛化能力，并且与使用混合网络的广泛 MARL 算法保持兼容，将其定位为解决复杂多方场景的一种有前景且多功能的解决方案。