摘要
本文提出了 SeC-Learning 机器:一种基于单纯形的安全持续学习方法,适用于安全攸关的自主系统。SeC-Learning 机器基于单纯形逻辑(即“利用简单性来控制复杂性”)和物理约束深度强化学习(Phy-DRL)。因此,SeC-Learning 机器包含 HP(高性能)-学生、HA(高保障)-教师和协调器。具体而言,HP-学生是一个经过预训练的高性能但未完全验证的 Phy-DRL,它在真实环境中持续学习以调整动作策略,使其安全可靠。相比之下,HA-教师是一个任务简化、基于物理模型且经过验证的设计。作为补充,HA-教师承担着两项任务:保障安全和纠正不安全的学习。协调器触发 HP-学生和 HA-教师之间的交互和切换。得益于这三个交互式组件,SeC-Learning 机器能够:i) 确保终身安全(即在任何持续学习阶段都能保证安全,无论 HP-学生是否成功或收敛);ii) 解决模拟到真实环境的差距;iii) 学习在真实环境中容忍未知的未知因素。在一根杆子上的小车系统和真实的四足机器人上的实验表明,与基于最先进的安全 DRL 框架并包含解决模拟到真实环境差距方法的持续学习方法相比,SeC-Learning 机器具有独特的功能。