LLM2D
LocRef-Diffusion:免调参的布局和外观引导式生成
LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation
作者: Fan Deng, Yaguang Wu, Xinyang Yu, Xiangjun Huang, Jian Yang, Guangyu Yan, Qiang Xu
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15252v1

摘要

基于扩散模型的文本到图像模型近期在生成高质量图像方面取得了显著成功。然而,对这些图像中实例进行个性化、可控生成的挑战仍然有待进一步发展。本文提出了一种新颖的、无需微调的模型LocRef-Diffusion,该模型能够个性化定制图像中多个实例的外观和位置。为了提高实例放置的精度,我们引入了一个布局网络(Layout-net),它利用显式的实例布局信息和实例区域交叉注意力模块来控制实例生成的位 置。为了提高与参考图像的外观保真度,我们采用了一个外观网络(appearance-net),该网络提取实例外观特征,并通过交叉注意力机制将其整合到扩散模型中。我们在COCO和OpenImages数据集上进行了大量的实验,结果表明,我们提出的方法在布局和外观引导的生成方面取得了最先进的性能。