LLM2D

摘要

可扩展矢量图形 (SVG) 是网络和设计行业中一种流行的格式。然而，尽管生成式模型取得了巨大进步，但由于 SVG 数据的离散性和复杂性，它仍然没有得到充分探索。我们介绍了 GRIMOIRE，一个文本引导的 SVG 生成模型，它由两个模块组成：一个视觉形状量化器 (VSQ) 学习通过将光栅图像重建为矢量形状来将光栅图像映射到离散代码本，以及一个自回归变换器 (ART) 对形状标记、位置和文本描述的联合概率分布进行建模，使我们能够从自然语言生成矢量图形。与需要从 SVG 数据直接监督的现有模型不同，GRIMOIRE 只使用光栅图像监督来学习形状图像块，这使得矢量生成式建模能够使用更多数据。我们通过在 MNIST 上对封闭填充形状和在图标和字体数据上对轮廓笔划拟合 GRIMOIRE 来证明我们方法的有效性，在生成质量方面超过了以前基于图像监督的方法，并在灵活性方面超越了基于矢量监督的方法。