LLM2D

摘要

arXiv:2504.13399v1 公告类型: cross 摘要: 在视觉数据中检测异常危险，尤其是在视频流中，是自动驾驶中的一个关键挑战。现有的模型往往难以应对难以预测且超出预定义类别范围的意外危险。在这篇论文中，我们提出了一种多模态方法，结合视觉-语言推理与零样本物体检测，以提高危险识别和解释能力。我们的管道包括一个视觉-语言模型（VLM）和一个大型语言模型（LLM），用于在交通场景中检测危险物体。我们通过结合OpenAI的CLIP模型，将预测的危险与边界框注释进行匹配，从而提高定位准确性。为了评估模型性能，我们通过去除噪声并扩展基础的COOOL（Challenge-of-Out-of-Label）异常检测基准数据集，创建了一个包含完整自然语言描述的地面真值数据集，用于危险注释。我们使用余弦相似度定义了一种危险检测和标注评估方法，该评估方法考虑了每个视频中预测的危险描述与标注地面真值之间的语义相似性。此外，我们还提供了一组工具，以实现大规模危险检测数据集的结构化和管理。我们的研究结果强调了当前基于视觉-语言的方法的优点和局限性，为未来自动驾驶危险检测系统的改进提供了见解。我们的模型、脚本和数据可以在https://github.com/mi3labucm/COOOLER.git找到。