LLM2D

摘要

arXiv:2412.04233v2 宣告类型: replace-cross 摘要：可适性在协同多智能体强化学习（MARL）中至关重要，其中智能体必须学习针对不同任务的专门化或同质行为。尽管参数共享方法样本效率高，但它们常常会遇到智能体间的梯度干扰，限制了行为多样性。相反，非参数共享方法能够实现专门化，但计算成本较高，样本效率较低。为了解决这些问题，我们提出了HyperMARL，这是一种使用超网络动态生成智能体特异性行为者和评论员参数的参数共享方法，而无需改变学习目标或设置预定义的行为多样性水平。通过解耦观测和智能体条件的梯度，HyperMARL 实验性地降低了策略梯度的方差，并促进了 FuPS 中的专门化，建议它可以缓解智能体间的干扰。在涉及多达二十个智能体的多个 MARL 基准测试中，包括需要同质、异质或混合行为的情况，HyperMARL 在性能上始终与全面共享、非参数共享和促进多样性的基线表现相当，同时保持的行为多样性水平与非参数共享相当。这些发现确立了超网络作为一种在各种环境中均可用于MARL的多功能方法。