摘要
arXiv:2504.21042v1 安全公告类型: 交叉
摘要:人工智能(AI)的广泛应用放大了对其可靠性的担忧,包括完整性和透明性、隐私保护、稳健性和偏差。为了评估和归因这些威胁,我们提出了一种名为ConceptLens的通用框架,该框架利用预训练的多模态模型通过分析探查样本中的概念变化来识别完整性威胁的根本原因。ConceptLens在常规数据中毒攻击中表现出强大的检测性能,并揭示了偏差注入的脆弱性,例如通过恶意概念变化生成隐蔽广告。它能够识别未修改但风险高的样本中的隐私风险,在训练前过滤这些样本,并提供由于训练数据不完整或不平衡而导致的模型弱点的见解。此外,在模型层面,它能够归因于目标模型过于依赖的概念,识别误导性概念,并解释破坏关键概念如何负面影响模型。此外,它揭示了生成内容中的社会学偏差,揭示了跨社会学背景的差异。值得注意的是,ConceptLens揭示了安全训练和推理数据可能如何无意中且轻松地被利用,这可能会削弱安全对齐。我们的研究提供了行动性的见解,以增强对AI系统的信任,从而加速其采用并推动更大的创新。