摘要
在现实世界中,图像分类器应该谨慎使用。在验证集上评估的性能可能无法反映现实世界中的性能。特别是,分类器可能对训练过程中经常遇到的条件表现良好,但对其他不常见的条件表现不佳。在本研究中,我们假设文本到图像生成模型的最新进展使其成为对图像分类器等计算机视觉模型进行基准测试的宝贵工具:它们可以根据文本提示生成图像,这些提示会导致分类器出现故障,从而允许用文本属性描述故障条件。然而,当需要生成大量合成图像时,它们的生成成本会成为一个问题,例如,当需要测试许多不同的属性组合时。我们提出了一种图像分类器基准测试方法,该方法是一个迭代过程,交替进行图像生成、分类器评估和属性选择。这种方法有效地探索了最终导致不良行为检测的属性。