LLM2D

摘要

arXiv:2412.06333v2 宣告类型: replace-cross 摘要：纸牌游戏"Hanabi"被认为是一个测试和开发多智能体强化学习（MARL）算法的强大介质，这是因为它的合作性质、隐藏信息、有限的沟通以及显着的复杂性。以往的研究努力在Hanabi中探索了MARL算法的能力，主要集中于高级架构设计和算法操作，以实现各种数量的合作者的先进性能。然而，这往往会导致复杂的解决方案策略，具有较高的计算成本，并需要大量的训练数据。对于人类来说，要有效地解决Hanabi游戏，他们需要使用约定，这通常提供了一种在预定义且各方一致同意的“规则”基础上，隐含传达想法或知识的方法。在包含部分可观测性的问题中，特别是在有限的沟通情况下，通过使用隐含的知识分享可以获得极大的好处。在本文中，我们提出了一种新的方法，通过约定来增强动作空间，这些约定作为多时间步骤和多智能体之间的特殊合作行动，要求智能体积极参与才能实现其目标。这些约定基于现有的人类约定，对Hanabi中各种数量的合作者自玩游戏和跨玩游戏的技术性能产生了显著的改进。