LLM2D

摘要

arXiv:2409.12397v1 公告类型: 新文章摘要: 在合作游戏中实现无缝协调是人工智能中的一个关键挑战，尤其是在玩家处于不完全信息的情况下。缓解这种信息不对称的一种常见策略是利用显式通信。然而，由于传输损失等因素，直接通信并不总是可行的。我们探讨了在没有口头通信的情况下，如何通过仅观察彼此的行为来实现有效的协调。我们展示了自主代理如何通过解释其合作伙伴的行为来学习合作，这些行为被用来暗示其意图。我们的方法涉及通过为每种可能的行为构建确定性有限自动机，并将它们集成到一个非马尔可夫有限状态转换器中，来开发代理策略。该转换器代表代理的非确定性策略，在游戏过程中建议行动以协助其合作伙伴。在名为“夜之侏儒”的测试平台上进行的实验结果表明，所学习的无通信协调策略在成功率和完成游戏所需的步骤数量上显著优于未协调的场景，几乎与具有直接通信的预言基线表现相当。