摘要
arXiv:2502.01387v1 宣布类型: 新
摘要:尽管深度强化学习(DRL)和大型语言模型(LLMs)在解决自动驾驶中的决策挑战方面显示出潜力,但DRL经常受到高样本复杂性的困扰,而LLMs则难以确保实时决策。为了解决这些局限性,我们提出了一种名为TeLL-Drive的混合框架,该框架整合了一个教师LLM以指导基于注意力的学生DRL策略。通过将风险度量、历史场景检索和领域启发式方法融入上下文丰富的提示中,LLM通过链式思维推理生成高层次的驾驶策略。然后,自注意力机制将这些策略与DRL代理的探索相结合,加速策略收敛并提升在多样化驾驶条件下的鲁棒性。我们在多个交通场景下的实验结果显示,TeLL-Drive在成功率、平均回报和实时可行性方面优于现有的基线方法,包括其他基于LLM的方法。消融研究强调了每个模型组件的重要性,尤其是注意力机制与LLM驱动的指导之间的协同作用。这些发现表明,TeLL-Drive显著增强了自动驾驶系统的适应性和安全性,同时提供了一种更高效和可扩展的策略学习方法。完整的验证结果可在我们的网站上查阅。