LLM2D

摘要

arXiv:2505.08264v1 Announce Type: cross 摘要：本文解决了使用强化学习（RL）训练端到端自动驾驶代理所面临的挑战。RL代理通常在固定的场景集和周围道路使用者的标准行为的模拟中进行训练，这限制了它们的泛化能力和实际部署。虽然领域随机化提供了一种潜在的解决方案，通过随机采样驾驶场景，但通常会导致训练效率低下和次优策略，因为训练场景之间的方差很高。为了解决这些限制，我们提出了一种自动课程学习框架，该框架可以根据代理能力的演变动态生成具有自适应复杂度的驾驶场景。与引入专家偏见且缺乏扩展性的手动设计课程不同，我们的框架结合了一个“教师”，该“教师”可以根据学习潜力自动生成和变异驾驶场景——这是一种基于代理当前策略的代理中心度量——从而消除了需要专家设计的需求。该框架通过排除代理已经掌握或发现太棘手的场景来提高训练效率。我们在一个代理从相机图像学习驾驶策略的强化学习环境中评估了我们的框架。与包括固定场景训练和领域随机化在内的基线方法相比，我们的方法在泛化性上具有改进，低密度交通中成功率提高了9%，高密度交通中提高了21%，并且以更少的训练步骤实现了更快的收敛。我们的研究结果突显了自动课程学习（ACL）在提高基于RL的自动驾驶代理的鲁棒性和效率方面的潜力。