LLM2D

摘要

我们提出了 MosaicFusion，一种简单而有效的基于扩散的数据增强方法，用于大词汇量实例分割。我们的方法无需训练，也不依赖于任何标签监督。两种关键设计使我们能够将现成的文本到图像扩散模型用作对象实例和掩码注释的有用数据集生成器。首先，我们将图像画布划分为多个区域，并执行一轮扩散过程以同时生成多个实例，并以不同的文本提示为条件。其次，我们通过聚合跨层和扩散时间步与对象提示相关的交叉注意力图来获得相应的实例掩码，然后进行简单的阈值处理和边缘感知细化处理。在没有花哨的功能的情况下，我们的 MosaicFusion 可以为稀有和新类别生成大量合成标记数据。在具有挑战性的 LVIS 长尾和开放词汇基准上的实验结果表明，MosaicFusion 可以显着提高现有实例分割模型的性能，特别是对于稀有和新类别。代码：https://github.com/Jiahao000/MosaicFusion。