LLM2D
ICAS:基于IP Adapter和ControlNet的注意力结构多主体风格转换优化
ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization
作者: Fuwei Liu
发布日期: 4/21/2025
arXiv ID: oai:arXiv.org:2504.13224v1

摘要

arXiv:2504.13224v1 宣言类型: cross 摘要:生成多个主题的风格化图像仍然是一个重大挑战,因为在定义风格属性(如颜色、纹理、氛围和结构)方面存在不确定性,并且在多个主题上一致地应用这些属性也具有困难性。尽管基于扩散的文本到图像模型取得了显著进展,但现有方法通常依赖于计算成本高昂的反演过程或大规模风格化数据集。此外,这些方法往往难以保持多主题语义的一致性,并且受到高推断成本的限制。为了克服这些限制,我们提出了一种新颖的框架ICAS(IP-Adapter和ControlNet基于的注意力结构),用于高效的可控多主题风格转换。ICAS 不是对整个模型进行调优,而是仅对预训练扩散模型的内容注入分支进行适应性微调,从而保持身份特定的语义并增强风格可控性。通过结合IP-Adapter进行自适应风格注入和ControlNet进行结构条件处理,我们的框架确保全局布局的忠实保留以及局部风格合成的准确性。此外,ICAS 引入了一种循环的多主题内容嵌入机制,这使得在有限数据集设置下能够有效进行风格转换,而无需广泛的风格化语料库。广泛的实验表明,ICAS 在结构保留、风格一致性以及推理效率方面表现出优越的性能,为现实世界应用中的多主题风格转换建立了新的范式。