摘要
arXiv:2505.06413v1 型别: 横跨领域
摘要:视觉-语言模型(VLMs)已被整合到自动驾驶系统中,通过视觉问答(VQA)任务来增强推理能力。然而,这些系统对后门攻击的鲁棒性尚未受到充分探索。在本文中,我们提出了针对自动驾驶场景中VLM系统的自然反射后门攻击,旨在在特定视觉触发器存在时诱导显著的响应延迟。我们将在DriveLM数据集中的一部分图像中嵌入淡反射图案,这些图案模仿如玻璃或水等自然表面,并且在对应的文本标签前添加冗长的无关前缀(例如,伪造的故事或系统更新通知)。这种策略训练模型在遇到触发器时生成异常长的响应。我们使用参数高效的方法微调了两个最新的VLMs模型,Qwen2-VL和LLaMA-Adapter。实验结果表明,虽然模型在干净输入上保持正常的性能,但在触发时表现出显著的推理延迟,可能会导致现实世界中自动驾驶决策中的潜在危险延迟。进一步的分析探讨了中毒率、摄像头视角和跨视图可转移性等因素。我们的发现揭示了一类新的攻击,这些攻击利用了自动驾驶对实时性的严格要求,对增强VLM的驾驶系统安全性和可靠性构成严重挑战。