摘要
鉴于近期基于视觉的模型大规模多模态训练及其泛化能力,理解其鲁棒性程度对于其实际部署至关重要。本研究评估了当前基于视觉的模型对不同对象与背景上下文变化的适应能力。大多数鲁棒性评估方法都引入了合成数据集来诱导对象特征(视角、尺度、颜色)的变化,或者利用图像变换技术(对抗性变化、常见损坏)对真实图像进行处理以模拟分布变化。最近的一些工作探索了利用大型语言模型和扩散模型来生成背景变化。然而,这些方法要么缺乏对变化的控制,要么会扭曲对象的语义,使其不适合这项任务。相比之下,我们的方法可以在保留对象原始语义和外观的同时,诱导对象与背景的多样化变化。为了实现这一目标,我们利用文本到图像、图像到文本和图像到分割模型的生成能力,自动生成广泛的对象与背景变化。我们通过修改文本提示或优化文本到图像模型的潜在变量和文本嵌入来诱导自然和对抗性背景变化。我们制作了标准视觉数据集(ImageNet、COCO)的各种版本,在图像中加入多样化和真实的背景,或在背景中引入颜色、纹理和对抗性变化。我们进行了大量的实验,以分析基于视觉的模型在不同任务中对对象与背景上下文变化的鲁棒性。代码:https://github.com/Muhammad-Huzaifaa/ObjectCompose。