LLM2D

摘要

arXiv:2504.14645v1 宣告类型: cross 摘要: 我们采用了一种进化的优化框架，通过扰动初始状态来生成具有信息性和多样性的策略演示。通过结合局部多样性、行为确定性和全局种群多样性，联合元训练适应度函数指导优化。为了评估演示的质量，我们应用了一系列评估指标，包括基于奖励的最优性差距、中位数四分位误差（IQMs）、适应度组成分析和轨迹可视化。还检查了超参数的敏感性，以更好地理解轨迹优化的动力学。研究结果表明，通过元训练适应度指标优化轨迹选择，显著提高了在离散和连续环境中的RL策略的可解释性。在网格世界的领域中，评估表明与随机和删除基线相比，演示的忠实性有显著增强。在连续控制中，提出的框架为早期策略提供了有价值的见解，而基于忠实性的优化对成熟策略更为有效。通过对元训练适应度函数进行精细和系统性的分析，本研究推进了RL模型的可解释性。提出的改进为RL决策提供了更深入的见解，有利于安全关键和可解释性重点关注领域的应用。