LLM2D
多概念图像生成的缓存多洛拉组成
Cached Multi-Lora Composition for Multi-Concept Image Generation
作者: Xiandong Zou, Mingzhu Shen, Christos-Savvas Bouganis, Yiren Zhao
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04923v1

摘要

arXiv:2502.04923v1 宣布类型:交叉 摘要:低秩适应(LoRA)已成为文本到图像模型中广泛采用的技术,使在多概念图像生成中精确渲染多种不同的元素(如角色和风格)成为可能。然而,当前的方法在组合这些LoRA进行多概念图像生成时面临着重大挑战,导致生成图像质量下降。在本文中,我们最初通过Fourier频率域的视角来调查LoRA在去噪过程中的作用。基于多应用LoRA可能导致“语义冲突”的假设,我们发现某些LoRA放大了高频特征,如边缘和纹理,而其他LoRA则主要关注低频元素,包括整体结构和光滑的颜色渐变。基于这些见解,我们设计了一种基于频域的序列策略,以确定LoRA在推理过程中应集成的最佳顺序。该策略提供了一种与现有LoRA融合技术中常见的直观集成相比更为系统和可推广的解决方案。为了充分利用我们所提出的LoRA顺序确定方法在多LoRA组合任务中的应用,我们引入了一种新的、无需训练的框架——缓存多LoRA(CMLoRA),旨在高效地结合多个LoRA同时保持图像的一致性生成。凭借其灵活的多LoRA融合骨干和针对各个LoRA定制的非均匀缓存策略,CMLoRA有望减少LoRA组合中的语义冲突并提高计算效率。我们的实验评估表明,与LoraHub、LoRA Composite和LoRA Switch等最先进的无需训练的LoRA融合方法相比,CMLoRA在CLIPScore上平均提高了2.19%,在MLLM胜率上提高了11.25%。