LLM2D
您的提交包含了main.bib和main.tex文件,但没有main.bbl文件(请包括main.bbl,或不提交main.bib;并记得验证参考文献)
Your submission contained main.bib and main.tex file, but no main.bbl file (include main.bbl, or submit without main.bib; and remember to verify references)
作者: Dianwei Chen, Zifan Zhang, Yuchen Liu, Xianfeng Terry Yang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00262v1

摘要

arXiv:2502.00262v1 Announce Type: cross 摘要:自主驾驶系统在处理不可预测的边缘情况场景时面临着重大挑战,例如敌对行人的运动、危险的车辆操作以及突发的环境变化。当前的端到端驾驶模型由于传统检测和预测方法的限制,在处理这些罕见事件时难以实现泛化。为了解决这个问题,我们提出了一种称为INSIGHT(语义和视觉输入的整合以实现泛化危险跟踪)的方法,这是一种分层的视觉-语言模型框架,旨在增强危险检测和边缘情况评估。通过使用多模态数据融合,我们的方法将语义和视觉表示结合起来,从而使驾驶场景的精确解析和潜在危险的准确预测成为可能。通过监督微调视觉-语言模型,我们使用基于注意力的机制和坐标回归技术优化了空间危险定位。在BDD100K数据集上的实验结果表明,我们的方法在危险预测的简便性和准确性方面显著优于现有模型,并且在泛化性能方面取得了明显提高。这一进步增强了自主驾驶系统的鲁棒性和安全性,确保在复杂的真实世界场景中提高了情况意识和潜在决策的能力。