摘要
arXiv:2505.00284v1 宣传类型: cross
摘要: 视觉-语言模型(Vision-Language Models, VLMs)在端到端自动驾驶中展现了显著的潜力。然而,充分利用其能力以确保自动驾驶的安全性和可靠性仍然是一个开放的研究挑战。为了系统地考察VLMs在驾驶任务中的进展和局限性,我们引入了LightEMMA,一种轻量级的端到端多模态模型,用于自动驾驶。LightEMMA提供了一个统一的、基于VLM的自动驾驶框架,无需特殊定制,便于将不断发展的最新商业和开源模型集成和评估。我们使用各种VLM构建了十二个自动驾驶代理,并在nuScenes预测任务上评估了它们的性能,全面评估了诸如推理时间、计算成本和预测准确性等指标。示例说明了,尽管VLM在场景解释方面具有很强的能力,但在自动驾驶任务中的实际表现仍然令人担忧,突出了进一步改进的需求。代码可在 https://github.com/michigan-traffic-lab/LightEMMA 获取。