摘要
arXiv:2410.15127v2 通知类型: 交叉替换
摘要: 确保深度强化学习(DRL)的可验证和可解释安全性对于其实现场景化应用程序至关重要。现有的方法如验证-在-循环训练等,面临着部署困难、训练效率低下、缺乏可解释性以及在属性满足和奖励性能方面表现不佳等挑战。在这项工作中,我们提出了一个名为Reintrainer的新颖验证驱动的解释-在-循环框架,以开发可信赖的DRL模型,该模型可以保证满足预期的约束属性。具体而言,在每一轮迭代中,该框架使用形式化验证测量训练中模型与预定义属性之间的差距,解释每个输入特征对模型输出的贡献,并根据即时度量结果生成相关的训练策略,直到所有预定义属性得到验证。此外,现有验证器和解释器的低可重用性促使我们为Reintrainer开发Reinfier,这是一个DRL验证和解释的通用基础工具。Reinfier具备断点搜索和验证驱动的解释功能,并与简洁的形式化约束编码语言DRLP相关联。评价结果表明,Reintrainer在六个公开基准测试中在性能和属性保证方面均优于现有最先进的方法。我们的框架可以在 https://github.com/Kurayuri/Reinfier 获取。