LLM2D
文本到图像扩散模型的地面真值方法以实现受控高质量化图像生成
Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation
作者: Ahmad S\"uleyman, G\"oksel Biricik
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2501.09194v2

摘要

arXiv:2501.09194v2 通知类型: 交叉替换 摘要:文本到图像(T2I)生成扩散模型在从文本描述合成多样化、高质量视觉方面表现出色。已经开发了多种布局到图像模型,通过利用分割图、边缘和人体关键点等广泛的布局来控制生成过程。在本文中,我们提出了一种称为ObjectDiffusion的模型,该模型通过在扩散模型中使用语义和空间定位信息进行条件约束,从而使特定对象在通过边界框定义的特定位置上精确渲染和放置成为可能。为此,我们对ControlNet引入的网络架构进行了重大修改,并将其与GLIGEN提出的定位方法结合。我们在COCO2017训练数据集上微调ObjectDiffusion,并在COCO2017验证数据集上评估它。我们的模型在可控图像生成的精确性和质量上有所改进,实现了AP$_{\text{50}}$为46.6,AR为44.5,FID为19.8的结果,这三个指标均优于训练于开源数据集的当前SOTA模型。ObjectDiffusion在多种语境下展示了独特的能力,能够合成多样化、高质量、高保真度的图像,这些图像能够无缝符合语义和空间控制布局。在定性和定量测试中,ObjectDiffusion在封闭集和开放集词汇设置下展示了显著的定位能力。定性的评估验证了ObjectDiffusion生成不同大小、形态和位置的多个详细对象的能力。