LLM2D
基于稳定扩散的可控图像增强框架
CIA: Controllable Image Augmentation Framework Based on Stable Diffusion
作者: Mohamed Benkedadra, Dany Rimez, Tiffanie Godelaine, Natarajan Chidambaram, Hamed Razavi Khosroshahi, Horacio Tellez, Matei Mancas, Benoit Macq, Sidi Ahmed Mahmoudi
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16128v1

摘要

计算机视觉任务,例如目标检测和分割,依赖于大量准确标注数据集的可用性。在这项工作中,我们提出了CIA,一个模块化流程,用于:(1) 使用稳定扩散模型生成合成图像以增强数据集;(2) 使用定义的质量指标过滤掉低质量样本;(3) 使用精确的提示和ControlNet强制生成图像中存在特定模式。为了展示CIA如何用于搜索训练数据的最佳增强流程,我们研究了数据受限场景下的人体目标检测,在COCO和Flickr30k数据集上使用YOLOv8n。我们使用CIA生成的图像取得了显著的改进,接近于将数据集中的真实图像数量翻倍所获得的性能。我们的研究结果表明,我们的模块化框架可以显著增强目标检测系统,并使未来在数据受限场景下的研究成为可能。该框架可在以下地址获取:github.com/multitel-ai/CIA。