LLM2D

摘要

arXiv:2502.00726v1 宣告类型: 新摘要: 多智能体深度强化学习（MADRL）已被证明在解决机器人或游戏中的复杂问题方面极为有效，但大多数训练模型难以解释。尽管学习内在可解释性模型仍然是一个突出的方法，但在处理复杂任务或多智能体动态时，其可扩展性和灵活性有限。本文提倡直接可解释性，即从训练好的模型中直接生成事后解释，作为一种灵活且可扩展的替代方案，能够在不改变模型架构的情况下为智能体的行为、涌现现象和偏差提供洞见。我们探索了现代方法，包括相关性反向传播、知识编辑、模型引导、激活补丁、稀疏自编码器和电路发现，以展示其在单智能体、多智能体和训练过程挑战中的适用性。通过解决MADRL的可解释性问题，我们提出的方向旨在推动团队识别、群体协调和样本效率等活跃话题的发展。