LLM2D

摘要

arXiv:2501.10464v3 通知类型: replace-cross 摘要：我们研究了在线游戏中适应已知次理性对手的问题，同时保持对理性对手的鲁棒性。我们关注大型不完美信息（零和）游戏，这使得无法一次性检查整个游戏树，因此需要使用深度有限搜索。然而，现有的所有方法都假设有深度限制之外的理性游戏，这仅允许它们适应对手行为的非常有限的部分。我们提出了一种名为“超越深度限制的适应”（ABD）的算法，该算法使用策略组合方法——我们称之为矩阵状态——来实现深度有限搜索。这种方法使算法能够充分利用所有关于对手模型的信息，成为第一个能够在大型不完美信息游戏中做到这一点的鲁棒适应方法。此外，使用矩阵状态使该算法比基于最优价值函数的传统方法更为简单。我们在德州扑克和水雷游戏中进行的实验结果表明，当面对在深度限制之外犯错误的对手时，ABD 在效用上能提高超过两倍；同时，在对抗随机生成的对手时，ABD 在效用和安全性方面也取得了显著改进。