LLM2D

摘要

arXiv:2504.18113v1 宣传类型：交叉摘要：本文介绍了一种使用稀疏非线性动力学辨识（Sparse Identification of Nonlinear Dynamics，SINDy）算法在强化学习（Reinforcement Learning，RL）中开发代理环境的方法。我们通过在 OpenAI Gym 环境中进行广泛的实验证明了该方法的有效性，特别是在 Mountain Car 和 Lunar Lander 环境中的表现。结果表明，基于 SINDy 的代理模型能够准确捕捉这些环境的内在动力学，同时将计算成本降低 20-35%。在 Mountain Car 中仅进行了 75 次交互，在 Lunar Lander 中进行了 1000 次交互，我们实现了状态级别的相关性超过 0.997，Mountain Car 速度的均方误差低至 3.11e-06，Lunar Lander 位置的均方误差低至 1.42e-06。在这些代理环境中训练的 RL 代理所需总步数较少（Mountain Car 为 65,075，而原始环境需要 100,000；Lunar Lander 为 801,000，而原始环境需要 1,000,000），同时能达到与在原始环境中训练的代理相当的性能，表现出相似的收敛模式和最终性能指标。本文为基于模型的 RL 提供了一种生成准确可解释代理环境的有效方法，从而推动了该领域的进步。