摘要
arXiv:2504.06292v1 类别: cross
摘要: 通过准确预测行人过街意图(PCI)来确保弱势道路使用者的安全,在自动驾驶和辅助驾驶的背景下起着至关重要的作用。在自我视角下分析观察到的视频帧被大多数PCI预测方法广泛用于预测过街意图。然而,由于视频帧的高度冗余性,它们在时间维度上难以捕捉到与行人行为相关的关键事件,这导致了PCI预测的次优性能。我们的研究通过引入一种名为 \underline{T}emporal-\underline{c}ontextual Event \underline{L}earning(TCL)的新方法来应对这一挑战。TCL 由 Temporal Merging Module(TMM)组成,其目标是通过将观察到的视频帧聚类成多个关键时间事件来管理冗余。然后,采用 Contextual Attention Block(CAB)来适应性地聚合多种事件特征以及视觉和非视觉数据。通过在关键事件的关键信息上综合时间特征提取和上下文注意机制,TCL 可以学习出具有表现力的表示形式以进行 PCI 预测。在 PIE、JAAD-beh 和 JAAD-all 三个广泛采用的数据集上进行了大量实验。结果显示,TCL 显著超越了现有最先进的方法。我们的代码可以在 https://github.com/dadaguailhb/TCL 获得。