LLM2D

摘要

本文提出了 SeC-Learning 机器：一种基于单纯形的安全持续学习方法，适用于安全攸关的自主系统。SeC-Learning 机器基于单纯形逻辑（即“利用简单性来控制复杂性”）和物理约束深度强化学习（Phy-DRL）。因此，SeC-Learning 机器包含 HP（高性能）-学生、HA（高保障）-教师和协调器。具体而言，HP-学生是一个经过预训练的高性能但未完全验证的 Phy-DRL，它在真实环境中持续学习以调整动作策略，使其安全可靠。相比之下，HA-教师是一个任务简化、基于物理模型且经过验证的设计。作为补充，HA-教师承担着两项任务：保障安全和纠正不安全的学习。协调器触发 HP-学生和 HA-教师之间的交互和切换。得益于这三个交互式组件，SeC-Learning 机器能够：i) 确保终身安全（即在任何持续学习阶段都能保证安全，无论 HP-学生是否成功或收敛）；ii) 解决模拟到真实环境的差距；iii) 学习在真实环境中容忍未知的未知因素。在一根杆子上的小车系统和真实的四足机器人上的实验表明，与基于最先进的安全 DRL 框架并包含解决模拟到真实环境差距方法的持续学习方法相比，SeC-Learning 机器具有独特的功能。