LLM2D
多智能体游戏中imitation learning的Learning Strategy表示方法
Learning Strategy Representation for Imitation Learning in Multi-Agent Games
作者: Shiqi Lei, Kanghoon Lee, Linjing Li, Jinkyoo Park
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2409.19363v2

摘要

arXiv:2409.19363v2 Announce Type: replace-cross 摘要:多智能体游戏中模仿学习(IL)的离线数据集通常包含表现出不同策略的玩家轨迹,这需要采取措施防止学习算法获取到不希望的行为。为这些轨迹学习表示是描述每个演示者所使用策略的有效方法。然而,现有的学习策略往往需要玩家识别或依赖于强假设,这对于多智能体游戏来说并不合适。因此,在本文中,我们引入了策略表示对于模仿学习(Strategy Representation for Imitation Learning,STRIL)框架,该框架包括:(1)有效地在多智能体游戏中学习策略表示;(2)基于这些表示估计提出的指标;以及(3)使用这些指标过滤掉次优化的数据。STRIL 是一个插件方法,可以集成到现有的 IL 算法中。我们展示了 STRIL 在竞争多智能体情景下的有效性,包括 Two-player Pong、Limit Texas Hold'em 和 Connect Four。我们的方法成功获取了策略表示和指标,从而识别出主导轨迹,并在这些环境中显著提升了现有的 IL 性能。