LLM2D

摘要

arXiv:2405.14701v5 通告类型: replace-cross 摘要：场景文本合成涉及将指定文本渲染到任意图像上。当前的方法通常将此任务以端到端的方式进行建模，但在训练过程中缺乏有效的字符级别指导。此外，它们的文本编码器在单一字体类型上进行预训练，难以适应实际应用中遇到的多样字体风格。因此，这些方法在多风格场景中会出现字符失真、重复和缺失的问题。为了解决这个问题，本文提出了一种名为DreamText的高保真场景文本合成方法。我们的主要思想是重构扩散训练过程，引入更精细且针对此任务的指导，以暴露并修正模型在字符级别上的注意力，并加强其对文本区域的学习。这种转变提出了混合优化挑战，涉及离散和连续变量。为了有效应对这一挑战，我们采用了启发式交替优化策略。同时，我们联合训练文本编码器和生成器，以全面学习和利用训练数据集中存在的各种字体。这一联合训练无缝地集成到了交替优化过程中，促进了学习字符嵌入与重新估计字符注意力之间的协同关系。具体而言，在每个步骤中，我们首先将交叉注意力图中潜在的字符生成位置信息编码为潜在字符掩码。然后，利用这些掩码更新当前步骤中特定字符的表示，这反过来使得生成器能够在后续步骤中纠正字符的注意力。定性和定量结果均展示了我们方法相对于当前最先进的方法的优势。