摘要
arXiv:2504.05588v1 交叉公告类型
摘要:在科学和工程应用中,控制复杂动力系统的不稳定性具有挑战性。深度强化学习(DRL)在不同科学应用中的应用中显示出有希望的结果。控制任务的多查询性质要求与底层物理的实时环境进行多次交互。然而,从实验中收集通常是稀疏的,或者对复杂动力学进行模拟是昂贵的。作为替代方案,通过使用代理建模来控制可以缓解计算成本问题。然而,在离线训练下快速而准确的学习模型使得在混沌动力学中很难获得准确的点动力学。为了弥合这一差距,当前工作提出了一种多保真度强化学习(MFRL)框架,利用差分混合模型进行控制任务,其中基于物理的混合模型通过有限的高保真数据进行校正。我们还提出了一种基于频谱的奖励函数用于RL学习。所提出的框架的效果在物理中的两种复杂动力学中得到了展示。MFRL控制结果的统计信息与高级保真环境的多查询评估计算结果匹配,并优于其他SOTA基准。