摘要
arXiv:2502.10999v1 交叉公告类型: cross
摘要: 本文展示了扩散模型可以在不需要字体标签标注的情况下,仅通过原始图像实现可控多语言文本渲染。视觉文本渲染仍然是一个重大的挑战。尽管最近的方法将扩散过程条件化于字符上,但在大规模、真实世界的数据集中难以从其中检索出准确的字体标注,这阻碍了用户指定的字体控制。为了解决这一问题,我们提出了一种数据驱动的解决方案,将条件扩散模型与文本分割模型相结合,利用分割掩码在像素空间中以自监督的方式捕获和表示字体,从而消除对任何真实标签的需求,并使用户提供任意所需多语言字体的自定义文本渲染成为可能。实验提供了一个算法在零样本多字体和多语言文本编辑方面的概念证明,为社区和行业提供了实现通用视觉文本渲染的宝贵见解。