摘要
arXiv:2411.19415v2 宣告类型: replace-cross
摘要:在文本到图像生成中实现文本指令与生成图像之间的精确对齐是一个重大挑战,特别是在图像中呈现书面文本方面。最先进的模型如Stable Diffusion 3 (SD3)、Flux和AuraFlow仍然在准确呈现文本方面存在困难,导致出现拼写错误或不一致的文本。我们介绍了一种无需训练且计算成本较低的方法,它可以显著提高文本渲染质量。具体来说,我们通过交替进行过拟合的学习常微分方程(ODE)模拟和重新引入噪声,引入了一种过拟合采样器,以预先训练的修正流(RF)模型为基础。与Euler采样器相比,过拟合采样器有效地引入了一个额外的朗格维恩动力学项,可以纠正连续Euler步骤中的累积误差,从而提高文本渲染质量。然而,当过拟合强度较高时,我们观察到生成图像中出现过度平滑的缺陷。为了解决这个问题,我们提出了一种注意机制调制的过拟合采样器(AMO),它可以适应性地根据文本内容的注意力得分控制每个图像补丁的过拟合强度。在不损害整体图像质量和增加推理成本的情况下,AMO在SD3和Flux上的文本渲染准确性分别提高了32.3%和35.9%。代码可在以下链接获取:https://github.com/hxixixh/amo-release。