LLM2D
KnobGen:控制基于草图的扩散模型中艺术作品的复杂程度
KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models
作者: Pouyan Navard, Amin Karimi Monsefi, Mengxi Zhou, Wei-Lun Chao, Alper Yilmaz, Rajiv Ramnath
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.01595v2

摘要

近年来,扩散模型的进步显著提升了文本到图像 (T2I) 生成,但它们通常难以在细粒度精度和高级控制之间取得平衡。ControlNet 和 T2I-Adapter 等方法擅长遵循经验丰富的艺术家的草图,但往往过于僵硬,会复制新手用户草图中的非故意缺陷。同时,粗粒度方法,如基于草图的抽象框架,提供更易于访问的输入处理,但缺乏专业使用所需的精确控制。为了解决这些局限性,我们提出了 KnobGen,这是一个双路径框架,通过无缝适应不同级别的草图复杂度和用户技能,使基于草图的图像生成民主化。KnobGen 使用粗粒度控制器 (CGC) 模块进行高级语义处理,并使用细粒度控制器 (FGC) 模块进行详细细化。这两个模块的相对强度可以通过我们的旋钮推理机制进行调整,以符合用户的特定需求。这些机制确保 KnobGen 可以灵活地从新手草图和经验丰富的艺术家绘制的草图中生成图像。这在保持对最终输出的控制的同时,保留了图像的自然外观,如 MultiGen-20M 数据集和新收集的草图数据集所证明的那样。