LLM2D

摘要

arXiv:2502.05453v1 宣布类型: 新颖摘要: 在动态开放世界场景中开发能够长期合作的智能代理是一个多代理系统中的主要挑战。传统的多代理强化学习（MARL）框架，如集中训练分散执行（CTDE），在可扩展性和灵活性方面存在困难。它们需要集中式的长期规划，而没有定制的奖励函数，这种规划是难以实现的，同时它们还面临处理多模态数据的挑战。CTDE方法还假设固定的合作策略，使得它们在动态环境中不实用，这些环境中的代理需要独立地适应和规划。为了应对分步多代理合作，我们提出了一种在新型多代理创造者环境中的去中心化自适应知识图记忆和结构通信系统（DAMCS）。我们的生成代理，由大型语言模型（LLM）驱动，通过利用外部知识和语言进行长期规划和推理，相较于传统的MARL代理更为可扩展。DAMCS不像传统的MARL策略那样完全共享所有过往经验中的信息，而是引入了一个多模态记忆系统，该系统以层次知识图的形式组织，并配以结构化的通信协议，以优化代理之间的合作。这使代理能够从过去的互动中进行推理，并高效地共享相关信息。在新型多代理开放世界任务实验中，DAMCS在任务效率和协作方面优于MARL和LLM基线。与单代理场景相比，两代理场景以63%更少的步骤实现了相同的目标，六代理场景以74%更少的步骤实现了相同的目标，突显了在实现长期目标中适应性记忆和结构化通信的重要性。我们公开发布了该项目：https://happyeureka.github.io/damcs。