LLM2D

摘要

arXiv:2408.01072v3 宣告类型: 替换摘要: 自己对战，由代理与其副本或过去版本之间的互动所定义，近年来在强化学习(RL)中取得了显著进展。本文首先澄清了自己对战的初步知识，包括多智能体强化学习框架和基本博弈论概念。然后，本文提供了一个统一的框架，并在该框架内对现有的自己对战算法进行分类。此外，本文通过展示自己对战在不同情境中的作用，缩小了算法与其实际影响之间的差距。最后，本文突出了自己对战领域中的开放挑战和未来研究方向。本文是理解RL中自己对战复杂景观的关键指南。