摘要
arXiv:2409.08240v2 公告类型: 替换-交叉 摘要: 尽管文本到图像 (T2I) 扩散模型在生成单个实例的视觉吸引人的图像方面表现出色,但它们在准确放置和控制多个实例的特征生成方面仍存在困难。布局到图像 (L2I) 任务通过引入边界框作为空间控制信号来解决定位挑战,但在生成精确的实例特征方面仍显不足。为此,我们提出了实例特征生成 (IFG) 任务,旨在确保生成实例的位置准确性和特征保真度。为解决 IFG 任务,我们引入了实例特征适配器 (IFAdapter)。IFAdapter 通过结合额外的外观标记并利用实例语义图来对齐实例级特征与空间位置,从而增强特征描述。IFAdapter 作为即插即用模块引导扩散过程,使其适应各种社区模型。为了评估,我们贡献了一个 IFG 基准,并开发了一个验证管道,以客观比较模型在生成具有准确位置和特征的实例方面的能力。实验结果表明,IFAdapter 在定量和定性评估中均优于其他模型。