LLM2D

摘要

arXiv:2503.21991v1 Announce Type: cross 摘要：在本文中，我们提出了一种专注于对象放置学习的复制粘贴图像到图像合成问题。先前的方法利用生成模型来减少密集监督的依赖性。然而，这往往限制了它们对复杂数据分布的建模能力。作为替代，已经探索了使用稀疏对比损失的变压器网络，但其过度宽松的正则化经常导致不精确的对象放置。我们引入了BOOTPLACE，这是一种新颖的范式，将对象放置形式化为一个通过检测进行放置的问题。我们的方法首先通过在对象减去背景上训练专门的检测变压器来识别适合的对象放置区域，该背景还增强了多对象监督。然后，基于检测区域的互补特性，基于语义将每个目标合成对象与检测到的区域关联起来。通过应用于随机对象减去图像的自增强训练方法，我们的模型通过对配对数据的广泛增强来强制有意义的放置。在权威基准上的实验结果表明，与Cityscapes和OPA数据集上的最先进的基线相比，BOOTPLACE在对象重定位方面表现更优，IOU分数有显著提高。额外的消融研究进一步展示了我们方法的组合性和泛化能力，并得到了用户研究的评估支持。