摘要
多智能体博弈中模仿学习的离线数据集通常包含展现多种策略的玩家轨迹,这需要采取措施来防止学习算法习得不良行为。对这些轨迹进行表征学习是有效地描绘每个示范者所使用策略的方法。然而,现有的学习策略往往需要玩家识别或依赖强假设,这些假设并不适用于多智能体博弈。因此,本文提出了策略表征模仿学习 (STRIL) 框架,它 (1) 有效地学习多智能体博弈中的策略表征,(2) 基于这些表征估计提出的指标,以及 (3) 使用这些指标过滤掉次优数据。STRIL 是一种插件方法,可以集成到现有的模仿学习算法中。我们在包括双人乒乓球、德州扑克限注版和井字棋在内的多个竞争性多智能体场景中证明了 STRIL 的有效性。我们的方法成功地获得了策略表征和指标,从而识别出主导性轨迹,并显著提高了这些环境中现有模仿学习的性能。