LLM2D

摘要

arXiv:2504.10266v1 Announce Type: cross 摘要：近年来，自动驾驶已成为一个热门的研究领域。由于在紧急情况下轮胎抓地极限控制至关重要，为赛车开发的算法对于普通汽车也十分有用。本文探讨了使用深度强化学习（DRL）在模拟环境中解决轮胎抓地极限驾驶问题的方法。使用 proximal 策略优化（PPO）方法训练一个代理，仅使用视觉输入控制车辆的方向盘和油门，以实现专业级的圈速时间。本文概述了将赛道上的最短时间驾驶任务表述为深度强化学习问题，并解释了所选择的观测值、行动和奖励函数。实验结果表明，该代理能够学习并表现出利用最大轮胎抓地潜力的人类驾驶行为。