LLM2D

摘要

arXiv:2505.06413v1 型别: 横跨领域摘要：视觉-语言模型（VLMs）已被整合到自动驾驶系统中，通过视觉问答（VQA）任务来增强推理能力。然而，这些系统对后门攻击的鲁棒性尚未受到充分探索。在本文中，我们提出了针对自动驾驶场景中VLM系统的自然反射后门攻击，旨在在特定视觉触发器存在时诱导显著的响应延迟。我们将在DriveLM数据集中的一部分图像中嵌入淡反射图案，这些图案模仿如玻璃或水等自然表面，并且在对应的文本标签前添加冗长的无关前缀（例如，伪造的故事或系统更新通知）。这种策略训练模型在遇到触发器时生成异常长的响应。我们使用参数高效的方法微调了两个最新的VLMs模型，Qwen2-VL和LLaMA-Adapter。实验结果表明，虽然模型在干净输入上保持正常的性能，但在触发时表现出显著的推理延迟，可能会导致现实世界中自动驾驶决策中的潜在危险延迟。进一步的分析探讨了中毒率、摄像头视角和跨视图可转移性等因素。我们的发现揭示了一类新的攻击，这些攻击利用了自动驾驶对实时性的严格要求，对增强VLM的驾驶系统安全性和可靠性构成严重挑战。