LLM2D

摘要

arXiv:2410.21794v2 宣告类型: 替换摘要：多智能体系统的重大挑战在于使智能体能够动态适应对手和队友不断变化的多种环境。使用传统方法训练的智能体通常仅在其训练群体的范围内表现出色；当面对不熟悉对手时，其性能会显著下降。为解决这一问题，我们引入了反向注意力智能体，该智能体采用信念传递理论（Theory of Mind, ToM）的概念，并通过注意力机制以端到端的方式训练来实现。这些智能体的最终行动依赖于其注意力模型中的权重，这些权重明确定义了对不同目标的关注。此外，我们提出了一种反向注意力网络，该网络根据观察和先验行动来推断其他智能体的ToM。该网络推断其他智能体的注意力状态，进而调整注意力权重以优化智能体的最终行动。我们在一个连续环境中进行了实验，完成了涵盖合作、竞争以及两者结合的任务。实验结果表明，反向注意力网络成功推断了其他智能体的注意力，这些信息改善了智能体的性能。此外的人类实验表明，与基线智能体模型相比，我们的反向注意力智能体与人类合作得更好，并更好地模仿人类行为。