摘要
可控文本到图像生成可在特定条件下合成图像中的视觉文本和物体,常用于表情符号和海报生成。视觉文本渲染和布局到图像生成的 task 在可控文本到图像生成中很流行。然而,这些 task 通常只关注单一模态的生成或渲染,导致为每个 task 设计的方法之间存在尚未弥合的差距。本文将文本渲染和布局到图像生成 task 整合到一个单一 task 中:布局可控文本对象合成 (LTOS) task,旨在基于预定义的对象布局和文本内容合成包含物体和视觉文本的图像。由于针对我们的 LTOS task 的兼容数据集并不容易获得,我们构建了一个布局感知的文本对象合成数据集,其中包含视觉文本和对象信息的精心对齐的标签。基于该数据集,我们提出了一种布局可控的文本对象自适应融合 (TOF) 框架,该框架生成具有清晰、易读的视觉文本和合理物体的图像。我们构建了一个视觉文本渲染模块来合成文本,并采用一个对象布局控制模块来生成物体,同时将这两个模块集成起来,以和谐地生成和整合图像中的文本内容和物体。为了更好地进行图像文本集成,我们提出了一种自适应交叉注意力融合模块,该模块有助于图像生成更多地关注重要的文本信息。在这个融合模块中,我们使用一个自适应可学习因子来灵活控制交叉注意力输出对图像生成的影响。实验结果表明,我们的方法在 LTOS、文本渲染和布局到图像 task 上优于现有技术,实现了和谐的视觉文本渲染和物体生成。