LLM2D

摘要

arXiv:2503.11937v2 Announce Type: replace-cross 摘要：文本到图像（T2I）扩散模型在生成高质量图像方面取得了显著的性能。然而，在新的领域（例如，通过仅文本指导的眼部开启度或汽车宽度等数值值，使连续属性保持精确控制，尤其是同时控制多个属性）仍然存在重大挑战。为了解决这一问题，我们引入了属性（Att）适配器，这是一种新颖的插件式模块，旨在使预训练的扩散模型能够实现细腻的多属性控制。我们的方法从一组样本图像中学习一个单一的控制适配器，这些样本图像可以不配对且包含多种视觉属性。Att-Adapter 利用了解耦交叉注意力模块，自然地协调了多领域属性与文本条件之间的关系。进一步地，我们将在 Att-Adapter 中引入条件变分自编码器（CVAE），以缓解过拟合问题，匹配视觉世界的多样性。在两个公共数据集上的评估结果显示，Att-Adapter 在控制连续属性方面优于所有基于 LoRA 的基线方法。此外，我们的方法能够实现更广泛的控制范围，并且在多个属性之间提高了分离性，超过了基于 StyleGAN 的技术。值得注意的是，Att-Adapter 具有灵活性，训练时不需要配对的合成数据，并且可以轻松扩展到单个模型中的多个属性。