LLM2D
增强自主驾驶安全性的视觉语言模型在情境意识危险检测与边缘案例评估中的应用
INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation
作者: Dianwei Chen, Zifan Zhang, Yuchen Liu, Xianfeng Terry Yang
发布日期: 2/5/2025
arXiv ID: 2502.00262

摘要

arXiv:2502.00262v2 宣布类型: replace-cross 摘要:自主驾驶系统在处理不可预测的边缘案例场景中面临重大挑战,例如敌对行人的运动、危险的车辆操作以及突然的环境变化。当前的端到端驾驶模型由于传统检测和预测方法的局限性,在这些罕见事件的泛化上面临困难。为了解决这一问题,我们提出了INSIGHT(融合语义和视觉输入的一般危险跟踪),这是一种分层的视觉-语言模型(VLM)框架,旨在增强危险检测和边缘案例评估。通过使用多模态数据融合,我们的方法将语义和视觉表示结合起来,使驾驶场景的精准解释和潜在危险的准确预测成为可能。通过监督微调VLMs,我们使用基于注意力机制和坐标回归技术优化了空间危险定位。在BDD100K数据集上的实验结果表明,与现有模型相比,我们的方法在危险预测的直接性和准确性上取得了显著提高,实现了显著增强的泛化性能。这一进展增强了自主驾驶系统的可靠性和安全性,确保了在复杂现实世界场景中的态势感知和潜在决策的改进。