摘要
arXiv:2411.01819v3 公告类型: replace-cross
摘要:当前的语义分割模型通常需要大量的手动标注数据,这一过程既费时又耗资源。相反,利用高级的文本到图像模型(如Midjourney和Stable Diffusion)已经成为了高效的方法,这些模型可以替代手动标注来自动生成合成数据。然而,之前的许多方法仅限于生成单实例图像,因为使用Stable Diffusion生成多个实例已经被证明是不稳定的。为了应对这一限制并扩展合成数据集的范围和多样性,我们提出了一种名为\textbf{Free-Mask}的框架,该框架结合了分割的扩散模型和高级图像编辑能力,通过文本到图像模型实现对图像中多个对象的集成。我们的方法能够创建高度逼真的数据集,这些数据集能够模仿现实世界的环境,并生成准确的分割掩码。这不仅减少了手动标注的劳动量,还确保了精确的掩码生成。实验结果表明,\textbf{Free-Mask}生成的合成数据能够使分割模型在零样本设置中优于使用真实数据训练的模型。特别地,在VOC 2012基准测试中,\textbf{Free-Mask}在未见过的类上实现了新的最先进结果。