LLM2D
Att-Adapter:基于条件变分自编码器的稳健而精确的领域特定多属性图文扩散适配器
Att-Adapter: A Robust and Precise Domain-Specific Multi-Attributes T2I Diffusion Adapter via Conditional Variational Autoencoder
作者: Wonwoong Cho, Yan-Ying Chen, Matthew Klenk, David I. Inouye, Yanxia Zhang
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2503.11937v2

摘要

arXiv:2503.11937v2 Announce Type: replace-cross 摘要:文本到图像(T2I)扩散模型在生成高质量图像方面取得了显著的性能。然而,在新的领域(例如,通过仅文本指导的眼部开启度或汽车宽度等数值值,使连续属性保持精确控制,尤其是同时控制多个属性)仍然存在重大挑战。为了解决这一问题,我们引入了属性(Att)适配器,这是一种新颖的插件式模块,旨在使预训练的扩散模型能够实现细腻的多属性控制。我们的方法从一组样本图像中学习一个单一的控制适配器,这些样本图像可以不配对且包含多种视觉属性。Att-Adapter 利用了解耦交叉注意力模块,自然地协调了多领域属性与文本条件之间的关系。进一步地,我们将在 Att-Adapter 中引入条件变分自编码器(CVAE),以缓解过拟合问题,匹配视觉世界的多样性。在两个公共数据集上的评估结果显示,Att-Adapter 在控制连续属性方面优于所有基于 LoRA 的基线方法。此外,我们的方法能够实现更广泛的控制范围,并且在多个属性之间提高了分离性,超过了基于 StyleGAN 的技术。值得注意的是,Att-Adapter 具有灵活性,训练时不需要配对的合成数据,并且可以轻松扩展到单个模型中的多个属性。