LLM2D

摘要

在城市环境中，自动驾驶汽车（AV）的决策制定由于与周围车辆的动态交互而具有内在挑战性。为了安全规划，AV 必须了解场景中各种时空交互的权重。当代工作使用庞大的 Transformer 架构来主要对轨迹预测进行交互编码，导致计算复杂度增加。为了解决这个问题，在不影响时空理解和性能的情况下，我们提出了简单的深度注意力驱动的强化学习（DADRL）框架，该框架动态地分配和整合周围车辆的重要性到自我 RL 驱动的决策制定过程中。我们引入了一种以 AV 为中心的时空注意力编码 (STAE) 机制，用于学习与不同周围车辆的动态交互。为了理解地图和路线上下文，我们使用上下文编码器从上下文地图中提取特征。时空表示与上下文编码相结合，提供了一个全面的状态表示。由此产生的模型使用 Soft Actor Critic (SAC) 算法进行训练。我们在没有交通信号灯的 SMARTS 城市基准场景中评估了所提出的框架，以证明 DADRL 优于最近的最新方法。此外，消融研究强调了上下文编码器和时空注意力编码器在实现卓越性能方面的重要性。