摘要
计算机视觉任务,例如目标检测和分割,依赖于大量准确标注数据集的可用性。在这项工作中,我们提出了CIA,一个模块化流程,用于:(1) 使用稳定扩散模型生成合成图像以增强数据集;(2) 使用定义的质量指标过滤掉低质量样本;(3) 使用精确的提示和ControlNet强制生成图像中存在特定模式。为了展示CIA如何用于搜索训练数据的最佳增强流程,我们研究了数据受限场景下的人体目标检测,在COCO和Flickr30k数据集上使用YOLOv8n。我们使用CIA生成的图像取得了显著的改进,接近于将数据集中的真实图像数量翻倍所获得的性能。我们的研究结果表明,我们的模块化框架可以显著增强目标检测系统,并使未来在数据受限场景下的研究成为可能。该框架可在以下地址获取:github.com/multitel-ai/CIA。