LLM2D
代理 Fitness 度量标准用于可解释的强化学习
Surrogate Fitness Metrics for Interpretable Reinforcement Learning
作者: Philipp Altmann, C\'eline Davignon, Maximilian Zorn, Fabian Ritz, Claudia Linnhoff-Popien, Thomas Gabor
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14645v1

摘要

arXiv:2504.14645v1 宣告类型: cross 摘要: 我们采用了一种进化的优化框架,通过扰动初始状态来生成具有信息性和多样性的策略演示。通过结合局部多样性、行为确定性和全局种群多样性,联合元训练适应度函数指导优化。为了评估演示的质量,我们应用了一系列评估指标,包括基于奖励的最优性差距、中位数四分位误差(IQMs)、适应度组成分析和轨迹可视化。还检查了超参数的敏感性,以更好地理解轨迹优化的动力学。研究结果表明,通过元训练适应度指标优化轨迹选择,显著提高了在离散和连续环境中的RL策略的可解释性。在网格世界的领域中,评估表明与随机和删除基线相比,演示的忠实性有显著增强。在连续控制中,提出的框架为早期策略提供了有价值的见解,而基于忠实性的优化对成熟策略更为有效。通过对元训练适应度函数进行精细和系统性的分析,本研究推进了RL模型的可解释性。提出的改进为RL决策提供了更深入的见解,有利于安全关键和可解释性重点关注领域的应用。