摘要
arXiv:2502.00726v1 宣告类型: 新
摘要: 多智能体深度强化学习(MADRL)已被证明在解决机器人或游戏中的复杂问题方面极为有效,但大多数训练模型难以解释。尽管学习内在可解释性模型仍然是一个突出的方法,但在处理复杂任务或多智能体动态时,其可扩展性和灵活性有限。本文提倡直接可解释性,即从训练好的模型中直接生成事后解释,作为一种灵活且可扩展的替代方案,能够在不改变模型架构的情况下为智能体的行为、涌现现象和偏差提供洞见。我们探索了现代方法,包括相关性反向传播、知识编辑、模型引导、激活补丁、稀疏自编码器和电路发现,以展示其在单智能体、多智能体和训练过程挑战中的适用性。通过解决MADRL的可解释性问题,我们提出的方向旨在推动团队识别、群体协调和样本效率等活跃话题的发展。