LLM2D

摘要

arXiv:2408.17380v2 宣告类型: 修订摘要: 基于模型的强化学习（RL）有望通过利用虚拟环境模型表现出比无模型RL更高的样本效率。然而，由于复杂系统和环境中的不确定性，获取环境动力学的足够准确表示仍然是一个挑战。不准确的环境模型可能会降低基于模型的RL的样本效率和性能。同时，尽管基于模型的RL可以提高样本效率，但由于需要从头学习，通常仍然需要大量的训练时间，这可能会限制其相对于无模型方法的优势。为了解决这些挑战，本文提出了一种知识导向的基于模型的残差强化学习框架，旨在通过将已确立的专家知识融合到学习过程中来提高学习效率，并避免从零开始的问题。我们的方法将交通专家知识融入到虚拟环境模型中，使用智能驾驶模型（IDM）处理基本动力学，并使用神经网络处理残差动力学，从而确保对复杂场景的适应性。我们提出了一种新的策略，将传统的控制方法与残差RL结合，使得在不需要从头学习的情况下，也能实现高效的学习和策略优化。为了应用，我们将在混合交通流中针对CAV轨迹控制任务对停止-行走波的消散进行测试。实验结果表明，我们的方法在轨迹控制方面相比基线代理在样本效率、交通流平滑性和交通流动性方面实现了更好的性能。源代码和补充材料可在以下网址获取：https://zihaosheng.github.io/traffic-expertise-RL/。