LLM2D

摘要

基于扩散模型的文本到图像模型近期在生成高质量图像方面取得了显著成功。然而，对这些图像中实例进行个性化、可控生成的挑战仍然有待进一步发展。本文提出了一种新颖的、无需微调的模型LocRef-Diffusion，该模型能够个性化定制图像中多个实例的外观和位置。为了提高实例放置的精度，我们引入了一个布局网络（Layout-net），它利用显式的实例布局信息和实例区域交叉注意力模块来控制实例生成的位置。为了提高与参考图像的外观保真度，我们采用了一个外观网络（appearance-net），该网络提取实例外观特征，并通过交叉注意力机制将其整合到扩散模型中。我们在COCO和OpenImages数据集上进行了大量的实验，结果表明，我们提出的方法在布局和外观引导的生成方面取得了最先进的性能。