LLM2D
强化学习中自博弈方法综述
A Survey on Self-play Methods in Reinforcement Learning
作者: Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu, Wenhao Tang, Shiyu Huang, Deheng Ye, Wenbo Ding, Yaodong Yang, Yu Wang
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2408.01072v3

摘要

arXiv:2408.01072v3 宣告类型: 替换 摘要: 自己对战,由代理与其副本或过去版本之间的互动所定义,近年来在强化学习(RL)中取得了显著进展。本文首先澄清了自己对战的初步知识,包括多智能体强化学习框架和基本博弈论概念。然后,本文提供了一个统一的框架,并在该框架内对现有的自己对战算法进行分类。此外,本文通过展示自己对战在不同情境中的作用,缩小了算法与其实际影响之间的差距。最后,本文突出了自己对战领域中的开放挑战和未来研究方向。本文是理解RL中自己对战复杂景观的关键指南。