LLM2D

摘要

计算机视觉任务，例如目标检测和分割，依赖于大量准确标注数据集的可用性。在这项工作中，我们提出了CIA，一个模块化流程，用于：(1) 使用稳定扩散模型生成合成图像以增强数据集；(2) 使用定义的质量指标过滤掉低质量样本；(3) 使用精确的提示和ControlNet强制生成图像中存在特定模式。为了展示CIA如何用于搜索训练数据的最佳增强流程，我们研究了数据受限场景下的人体目标检测，在COCO和Flickr30k数据集上使用YOLOv8n。我们使用CIA生成的图像取得了显著的改进，接近于将数据集中的真实图像数量翻倍所获得的性能。我们的研究结果表明，我们的模块化框架可以显著增强目标检测系统，并使未来在数据受限场景下的研究成为可能。该框架可在以下地址获取：github.com/multitel-ai/CIA。