摘要
arXiv:2504.18113v1 宣传类型:交叉
摘要:本文介绍了一种使用稀疏非线性动力学辨识(Sparse Identification of Nonlinear Dynamics,SINDy)算法在强化学习(Reinforcement Learning,RL)中开发代理环境的方法。我们通过在 OpenAI Gym 环境中进行广泛的实验证明了该方法的有效性,特别是在 Mountain Car 和 Lunar Lander 环境中的表现。结果表明,基于 SINDy 的代理模型能够准确捕捉这些环境的内在动力学,同时将计算成本降低 20-35%。在 Mountain Car 中仅进行了 75 次交互,在 Lunar Lander 中进行了 1000 次交互,我们实现了状态级别的相关性超过 0.997,Mountain Car 速度的均方误差低至 3.11e-06,Lunar Lander 位置的均方误差低至 1.42e-06。在这些代理环境中训练的 RL 代理所需总步数较少(Mountain Car 为 65,075,而原始环境需要 100,000;Lunar Lander 为 801,000,而原始环境需要 1,000,000),同时能达到与在原始环境中训练的代理相当的性能,表现出相似的收敛模式和最终性能指标。本文为基于模型的 RL 提供了一种生成准确可解释代理环境的有效方法,从而推动了该领域的进步。