LLM2D

摘要

arXiv:2412.11050v2 宣告类型: replace-cross 摘要: 理解和解决corner cases对于确保自主驾驶系统的安全性和可靠性至关重要。视觉-语言模型(VLMs)在增强场景理解方面发挥着关键作用，但在关键驾驶场景中的性能受到诸如幻觉和现实世界锚定不足等重大挑战的影响。为了解决这些问题，本文提出了RAC3，一个旨在增强VLMs在corner case理解性能的新框架。RAC3集成了频率-空间融合(FSF)图像编码器、基于硬负样本和半硬负样本挖掘的跨模态对齐微调以及基于KMeans聚类和层次导航小型世界(HNSW)索引的快速查询管道。还引入了一种多模态推理链(CoT)提示策略，以引导类推推理并减少推理过程中的幻觉。此外，RAC3中集成了更新机制，以确保在框架内的持续学习。在CODA和NuScenes数据集上的大量实验表明，RAC3显著提高了多种下游任务中的corner case理解性能。与之前的先进方法相比，RAC3在CODA-LM基准上达到最高的最终得分为74.46，并且在与端到端框架如DriveLM集成时显示出一致的性能提升。这些结果证明了检索增强策略和跨模态对齐在实现更安全和更具解释性的自主驾驶方面的有效性。