摘要
arXiv:2502.08365v1 类型: cross
摘要: 在强化学习中,当我们希望在没有访问任务规范先验的情况下探索环境时,我们通常称之为任务无关的探索。在单智能体设置中,该问题已被广泛研究并基本理解。一个流行的方法是将任务无关的目标视为最大化由智能体策略引起的状态分布的熵,从中得出相应的原理和方法。相比之下,在多智能体设置中任务无关的探索知之甚少,而多智能体设置在现实世界中普遍存在。当其他智能体在场时,各个智能体应该如何探索?在这篇论文中,我们通过将最大化状态分布熵的问题扩展到多个智能体的问题来解决这个问题。首先,我们探讨了替代的表述形式,并突出各自的优点和缺点。然后,我们提出了一种可扩展的、去中心化的、信任区域策略搜索算法,以解决实际设置中的问题。最后,我们提供了实验证据的实验,以验证理论发现,并为具有挑战性的多智能体设置中的任务无关探索铺平道路。