LLM2D

摘要

arXiv:2409.12397v2 宣告类型:替换摘要:实现合作游戏中无缝协调是人工智能中的一个关键挑战，尤其是在玩家在不完整信息下操作的情况下。克服这种信息不对等的常见策略是利用明确的通信。然而，由于传输损失等因素，直接（口头）通信并不总能实现。利用《午夜小人》游戏，我们探讨了在没有口头交流的情况下如何实现有效的协调，仅依赖于观察对方的动作。我们展示了自主代理如何通过解释其伙伴的动作序列来学习合作，这些序列暗示了其意图。我们的方法通过为每种可能的动作学习一个确定的有限自动机，并将这些自动机整合到有限状态转换器中，生成了一个非马尔可夫策略。在《午夜小人》测试环境中进行的实验结果显示，即使没有直接通信，也可以学习到有效的合作策略。这些策略的成功率显著提高，所需步骤也更少，与允许直接通信的情况相比，表现几乎一样好。