LLM2D
沿预定义的人类可理解维度检测视觉模型的系统性弱点
Detecting Systematic Weaknesses in Vision Models along Predefined Human-Understandable Dimensions
作者: Sujan Sai Gannamaneni, Rohil Prakash Rao, Michael Mock, Maram Akila, Stefan Wrobel
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12360v1

摘要

arXiv:2502.12360v1 类型: cross 摘要: 在过去的几年里,由于对构建安全人工智能系统的关注不断增加,研究深度神经网络(DNN)系统性弱点变得尤为重要。切片发现方法(SDMs)是最常见的算法方法之一,用于发现这些系统性弱点。它们识别出一个测试中的DNN在其中表现较低的顶级k个语义一致的数据切片/子集。为了直接有用,例如作为安全论证的证据,切片应该与人类可理解(安全相关的)维度对齐,这些维度可能由安全专家和领域专家定义为操作设计领域(ODD)的一部分。对于结构化数据来说,这是直接的,但对于非结构化数据来说,由于缺乏语义元数据,这些调查变得具有挑战性。因此,我们提出了一种完整的流程,将当代基础模型与考虑结构化数据和DNN错误的组合搜索算法相结合,用于在图像中找到系统性弱点。与现有方法不同,我们发现与预定义的人类可理解维度一致的弱切片。由于该流程包含基础模型,其中间和最终结果可能并不总是精确的。因此,我们在流程中构建了一种方法来应对嘈杂元数据的影响。我们使用包括自动驾驶数据集,如Cityscapes、BDD100k和RailSem19在内的四个流行计算机视觉数据集以及多种最先进的模型作为测试中的DNN进行评估,以衡量该方法的质量。