摘要
本文介绍了多模态标记文档模型 (MarkupDM),该模型可以在交织的多模态文档中生成标记语言和图像。与现有的视觉语言多模态模型不同,我们的 MarkupDM 解决了图形设计任务中至关重要的独特挑战:生成有助于整体外观的局部图像,通常涉及透明度和不同大小,以及理解标记语言的语法和语义,这些语言作为图形设计表示格式起着基本作用。为了应对这些挑战,我们设计了一个图像量化器,以使用透明度对不同大小的图像进行标记,并修改了代码语言模型以处理标记语言并合并图像模态。我们对三种图形设计完成任务进行了深入评估:在图形设计模板中生成缺失的属性值、图像和文本。结果证实了我们的 MarkupDM 对图形设计任务的有效性。我们还详细讨论了优缺点,为未来多模态文档生成研究提供了见解。