LLM2D

摘要

arXiv:2409.19363v2 Announce Type: replace-cross 摘要：多智能体游戏中模仿学习（IL）的离线数据集通常包含表现出不同策略的玩家轨迹，这需要采取措施防止学习算法获取到不希望的行为。为这些轨迹学习表示是描述每个演示者所使用策略的有效方法。然而，现有的学习策略往往需要玩家识别或依赖于强假设，这对于多智能体游戏来说并不合适。因此，在本文中，我们引入了策略表示对于模仿学习（Strategy Representation for Imitation Learning，STRIL）框架，该框架包括：（1）有效地在多智能体游戏中学习策略表示；（2）基于这些表示估计提出的指标；以及（3）使用这些指标过滤掉次优化的数据。STRIL 是一个插件方法，可以集成到现有的 IL 算法中。我们展示了 STRIL 在竞争多智能体情景下的有效性，包括 Two-player Pong、Limit Texas Hold'em 和 Connect Four。我们的方法成功获取了策略表示和指标，从而识别出主导轨迹，并在这些环境中显著提升了现有的 IL 性能。