摘要
arXiv:2502.01387v3 宣告类型:替代
摘要:尽管深度强化学习(DRL)和大型语言模型(LLMs)各有潜力解决自主驾驶中的决策挑战,但DRL通常因其样本复杂性高而受到限制,而LLMs在确保实时决策方面存在困难。为了解决这些限制,我们提出了一种名为TeLL-Drive的混合框架,该框架将教师LLM与基于注意力的学生DRL策略相结合,以进行指导。通过将风险指标、历史场景检索和领域启发式方法整合到丰富的上下文中,LLM通过链式推理生成高层次的驾驶策略。随后,通过自注意力机制将这些策略与DRL代理的探索相结合,加速策略收敛并提升在各种驾驶条件下的鲁棒性。在多个交通场景下进行的实验结果表明,TeLL-Drive在成功率、平均回报以及实时可行性方面优于现有基线方法,包括其他基于LLM的方法。消除实验强调了每个模型组件的重要性,尤其是注意力机制与LLM驱动指导之间的协同作用。最后,我们构建了一个虚拟-现实融合的实验平台,通过车辆在环实验验证了该算法在实际车辆上的实时性能、鲁棒性和可靠性。