摘要
扩散模型的最新进展显著提高了文本到图像 (T2I) 生成,但它们往往难以在细粒度精度和高级控制之间取得平衡。像 ControlNet 和 T2I-Adapter 这样的方法擅长遵循经验丰富的艺术家的草图,但往往过于僵硬,会复制新手用户草图中无意的缺陷。同时,粗粒度方法,如基于草图的抽象框架,提供了更易于访问的输入处理,但缺乏详细、专业用途所需的精确控制。为了解决这些局限性,我们提出了 KnobGen,这是一个双路径框架,通过无缝适应不同水平的草图复杂度和用户技能,使基于草图的图像生成民主化。KnobGen 使用粗粒度控制器 (CGC) 模块用于高级语义,并使用细粒度控制器 (FGC) 模块用于详细细化。这两个模块的相对强度可以通过我们的旋钮推理机制进行调整,以符合用户的特定需求。这些机制确保 KnobGen 可以灵活地从新手草图和经验丰富的艺术家绘制的草图中生成图像。这在保持对最终输出的控制的同时,也保留了图像的自然外观,正如 MultiGen-20M 数据集和新收集的草图数据集所证明的那样。