摘要
基于扩散的文本到图像模型在多样性和美学方面取得了令人印象深刻的成就,但难以生成具有清晰可辨识的视觉文本的图像。现有的骨干模型存在诸如拼写错误、无法生成文本以及缺乏对中文文本的支持等局限性,但其发展显示出巨大的潜力。本文提出了一系列方法,旨在赋能骨干模型生成英文和中文的视觉文本。我们首先进行了一项初步研究,揭示字节对编码 (BPE) 分词和跨注意力模块的学习不足限制了骨干模型的性能。基于这些观察结果,我们进行了以下改进:(1)我们设计了一种混合粒度输入策略,以提供更合适的文本表示;(2)我们建议用三种字形感知训练损失来增强传统的训练目标,这可以增强跨注意力模块的学习,并鼓励模型关注视觉文本。通过实验,我们证明了我们的方法可以有效地赋能骨干模型生成语义相关、美观且准确的视觉文本图像,同时保持其基本图像生成质量。