LLM2D

摘要

arXiv:2504.19715v1 类型: cross 摘要: 诸如车辆动力总成等复杂的机械系统固有地受到参数变化引起的各种非线性和不确定性的影响。因此，建模和校准误差是不可避免的，使从模拟转移到真实世界的系统成为一项关键挑战。传统的鲁棒控制在处理某些类型的非线性和不确定性方面存在局限性，需要一种更实际的方法，能够全面补偿这些各种限制。本文提出了一种新的基于深度强化学习（DRL）的鲁棒控制方法。关键策略在于基于领域随机化（DR）的DRL框架、基于长短期记忆（LSTM）的actor和critic网络以及基于模型的控制（MBC）的协同作用。通过潜在马尔可夫决策过程（LMDP）进行问题建模，这是一种集合体的基本MDP，用于受不确定性和非线性影响的控制系统。在LMDP中，环境模拟器的动力学在训练过程中被随机化，以提高控制系统的鲁棒性以适应真实的测试环境。随机化增加了训练难度和最终控制系统的保守性；因此，通过同时使用基于名义系统模型的模型基控制器来辅助进步。与传统的基于DRL的控制相比，提议的设计者更加智能，我们可以通过更具紧凑性的神经网络架构和更少的训练数据来实现高度的泛化能力。通过将提议的方法应用于具有非线性和参数变化的复杂动力总成系统的主动阻尼的实际应用来验证该方法。对比测试表明，提议的方法具有高度的鲁棒性。