摘要
arXiv:2410.01595v3 宣告类型: 替换交叉
摘要:近期在扩散模型方面的进展显著提高了从文本到图像(T2I)生成的效果,但它们往往难以在精细粒度的精度和高层次的控制之间取得平衡。像ControlNet和T2I-Adapter这样的方法在遵循资深艺术家的素描时表现出色,但往往会过于僵化,复制了初学者素描中的无意瑕疵。与此同时,粗粒度的方法,如基于素描的抽象框架,提供了更为易于处理的输入,但缺乏在详细和专业的使用中所需的精确控制。为了应对这些局限性,我们提出了一种名为KnobGen的双路径框架,通过无缝适应不同复杂度的素描和用户技能来普及基于素描的图像生成。KnobGen采用了一个粗粒度控制器(CGC)模块进行高层次语义处理,和一个细粒度控制器(FGC)模块进行详细的细化处理。我们通过旋钮推理机制调整这两个模块的相对强度,以满足用户的具体需求。这些机制确保KnobGen能够灵活地从初学者的素描和资深艺术家的素描中生成图像,同时保持对最终输出的控制,并保留图像的自然外观,这在MultiGen-20M数据集和一个新收集的素描数据集中得到了验证。