LLM2D
交通专家遇见残差RL:基于知识的残差强化学习模型在CAV轨迹控制中的应用
Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control
作者: Zihao Sheng, Zilin Huang, Sikai Chen
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2408.17380v2

摘要

arXiv:2408.17380v2 宣告类型: 修订 摘要: 基于模型的强化学习(RL)有望通过利用虚拟环境模型表现出比无模型RL更高的样本效率。然而,由于复杂系统和环境中的不确定性,获取环境动力学的足够准确表示仍然是一个挑战。不准确的环境模型可能会降低基于模型的RL的样本效率和性能。同时,尽管基于模型的RL可以提高样本效率,但由于需要从头学习,通常仍然需要大量的训练时间,这可能会限制其相对于无模型方法的优势。为了解决这些挑战,本文提出了一种知识导向的基于模型的残差强化学习框架,旨在通过将已确立的专家知识融合到学习过程中来提高学习效率,并避免从零开始的问题。我们的方法将交通专家知识融入到虚拟环境模型中,使用智能驾驶模型(IDM)处理基本动力学,并使用神经网络处理残差动力学,从而确保对复杂场景的适应性。我们提出了一种新的策略,将传统的控制方法与残差RL结合,使得在不需要从头学习的情况下,也能实现高效的学习和策略优化。为了应用,我们将在混合交通流中针对CAV轨迹控制任务对停止-行走波的消散进行测试。实验结果表明,我们的方法在轨迹控制方面相比基线代理在样本效率、交通流平滑性和交通流动性方面实现了更好的性能。源代码和补充材料可在以下网址获取:https://zihaosheng.github.io/traffic-expertise-RL/。