LLM2D

多概念图像生成的缓存多洛拉组成

Cached Multi-Lora Composition for Multi-Concept Image Generation

作者: Xiandong Zou, Mingzhu Shen, Christos-Savvas Bouganis, Yiren Zhao

发布日期: 2/10/2025

arXiv ID: oai:arXiv.org:2502.04923v1

摘要

arXiv:2502.04923v1 宣布类型：交叉摘要：低秩适应（LoRA）已成为文本到图像模型中广泛采用的技术，使在多概念图像生成中精确渲染多种不同的元素（如角色和风格）成为可能。然而，当前的方法在组合这些LoRA进行多概念图像生成时面临着重大挑战，导致生成图像质量下降。在本文中，我们最初通过Fourier频率域的视角来调查LoRA在去噪过程中的作用。基于多应用LoRA可能导致“语义冲突”的假设，我们发现某些LoRA放大了高频特征，如边缘和纹理，而其他LoRA则主要关注低频元素，包括整体结构和光滑的颜色渐变。基于这些见解，我们设计了一种基于频域的序列策略，以确定LoRA在推理过程中应集成的最佳顺序。该策略提供了一种与现有LoRA融合技术中常见的直观集成相比更为系统和可推广的解决方案。为了充分利用我们所提出的LoRA顺序确定方法在多LoRA组合任务中的应用，我们引入了一种新的、无需训练的框架——缓存多LoRA（CMLoRA），旨在高效地结合多个LoRA同时保持图像的一致性生成。凭借其灵活的多LoRA融合骨干和针对各个LoRA定制的非均匀缓存策略，CMLoRA有望减少LoRA组合中的语义冲突并提高计算效率。我们的实验评估表明，与LoraHub、LoRA Composite和LoRA Switch等最先进的无需训练的LoRA融合方法相比，CMLoRA在CLIPScore上平均提高了2.19%，在MLLM胜率上提高了11.25%。

查看原文下载 PDF