LLM2D

摘要

arXiv:2502.00262v2 Announce Type: cross 摘要：自主驾驶系统在处理不可预测的极端情境，如对抗性行人移动、危险车辆操作和突然的环境变化时面临重大挑战。当前的端到端驾驶模型由于传统检测和预测方法的局限性，难以将这些罕见事件进行泛化处理。为了应对这一挑战，我们提出了一种名为INSIGHT（融合语义和视觉输入的一般危险跟踪）的方法，这是一种分层的视觉语言模型（VLM）框架，旨在增强危险检测和极端情境评估。通过多模态数据融合，我们的方法将语义和视觉表示整合起来，使驾驶场景的精确解释和潜在危险的准确预测成为可能。通过监督微调视觉语言模型，我们使用基于注意力机制的空间危险定位技术和坐标回归技术进行了优化。在BDD100K数据集上的实验结果表明，与现有模型相比，该方法在危险预测的清晰度和准确性上有了显著提高，并且在泛化性能上也有了显著提升。这一进步增强了自主驾驶系统的稳健性和安全性，确保在复杂现实场景中具有更好的情境意识和潜在决策能力。