LLM2D

摘要

arXiv:2501.02064v2 宣告类型: replace-cross 摘要：近年来，文本引导的风格转换取得了显著进步，主要归功于扩散模型的创新。这些模型在条件引导方面表现出色，利用文本或图像来指导采样过程。然而，尽管它们具有强大的能力，直接的条件引导方法在平衡文本语义的表达性和输出结果的多样性方面，以及捕捉风格特征方面仍然面临着挑战。为了解决这些挑战，我们提出了一个名为 ArtCrafter 的新型框架，用于文本到图像的风格转换。具体而言，我们引入了一种基于注意力的风格提取模块，精心设计以捕捉图像中的微妙风格元素。该模块采用多层架构，利用感知注意力机制的能力整合细粒度信息。此外，我们还提出了一种新颖的文本-图像对齐扩增组件，巧妙地平衡了两种模态的控制，使模型能够高效地将图像和文本嵌入映射到共享特征空间。我们通过注意力操作实现这一目标，这些操作允许模态之间平滑的信息流通。最后，我们引入了一种明确的调制方式，通过嵌入重构设计无缝地将多模态增强嵌入与原始嵌入结合，使模型能够生成多样化的输出。广泛的实验显示，ArtCrafter 在视觉风格化方面取得了令人印象深刻的结果，展现出卓越的风格强度、可控性和多样性。