LLM2D

摘要

arXiv:2502.08365v2 宣告类型: replace-cross 摘要：在强化学习中，当我们旨在在事先无法获取任务规范的情况下探索环境时，我们通常称之为任务无关探索。在单智能体设置中，该问题已经被广泛研究并且大部分已经得到了理解。一个流行的方案是将任务无关的目标视为最大化智能体策略引起的状态分布的熵，从该视角出发，可以得出相应的原则和方法。相反，在多智能体设置中，任务无关探索的知识却很少，而这类设置在现实世界中却很常见。在他人存在的情况下，不同智能体应该如何进行探索呢？在本文中，我们通过将最大化状态分布熵的问题推广到多个智能体设置，来回答这个问题。首先，我们研究了其他表述形式，并指出各自的优点和缺点。然后，我们提出了一种可扩展且去中心化的信任域策略搜索算法，以解决实际场景中的问题。最后，我们提供了概念性实验，以验证理论发现，并为进一步在具有挑战性的多智能体设置中进行任务无关探索铺平道路。