LLM2D

摘要

扩散模型的最新进展显著提高了文本到图像 (T2I) 生成，但它们往往难以在细粒度精度和高级控制之间取得平衡。像 ControlNet 和 T2I-Adapter 这样的方法擅长遵循经验丰富的艺术家的草图，但往往过于僵硬，会复制新手用户草图中无意的缺陷。同时，粗粒度方法，如基于草图的抽象框架，提供了更易于访问的输入处理，但缺乏详细、专业用途所需的精确控制。为了解决这些局限性，我们提出了 KnobGen，这是一个双路径框架，通过无缝适应不同水平的草图复杂度和用户技能，使基于草图的图像生成民主化。KnobGen 使用粗粒度控制器 (CGC) 模块用于高级语义，并使用细粒度控制器 (FGC) 模块用于详细细化。这两个模块的相对强度可以通过我们的旋钮推理机制进行调整，以符合用户的特定需求。这些机制确保 KnobGen 可以灵活地从新手草图和经验丰富的艺术家绘制的草图中生成图像。这在保持对最终输出的控制的同时，也保留了图像的自然外观，正如 MultiGen-20M 数据集和新收集的草图数据集所证明的那样。