LLM2D

摘要

arXiv:2502.01387v3 宣告类型：替代摘要：尽管深度强化学习（DRL）和大型语言模型（LLMs）各有潜力解决自主驾驶中的决策挑战，但DRL通常因其样本复杂性高而受到限制，而LLMs在确保实时决策方面存在困难。为了解决这些限制，我们提出了一种名为TeLL-Drive的混合框架，该框架将教师LLM与基于注意力的学生DRL策略相结合，以进行指导。通过将风险指标、历史场景检索和领域启发式方法整合到丰富的上下文中，LLM通过链式推理生成高层次的驾驶策略。随后，通过自注意力机制将这些策略与DRL代理的探索相结合，加速策略收敛并提升在各种驾驶条件下的鲁棒性。在多个交通场景下进行的实验结果表明，TeLL-Drive在成功率、平均回报以及实时可行性方面优于现有基线方法，包括其他基于LLM的方法。消除实验强调了每个模型组件的重要性，尤其是注意力机制与LLM驱动指导之间的协同作用。最后，我们构建了一个虚拟-现实融合的实验平台，通过车辆在环实验验证了该算法在实际车辆上的实时性能、鲁棒性和可靠性。