LLM2D

摘要

本文介绍了多模态标记文档模型 (MarkupDM)，该模型可以在交织的多模态文档中生成标记语言和图像。与现有的视觉语言多模态模型不同，我们的 MarkupDM 解决了图形设计任务中至关重要的独特挑战：生成有助于整体外观的局部图像，通常涉及透明度和不同大小，以及理解标记语言的语法和语义，这些语言作为图形设计表示格式起着基本作用。为了应对这些挑战，我们设计了一个图像量化器，以使用透明度对不同大小的图像进行标记，并修改了代码语言模型以处理标记语言并合并图像模态。我们对三种图形设计完成任务进行了深入评估：在图形设计模板中生成缺失的属性值、图像和文本。结果证实了我们的 MarkupDM 对图形设计任务的有效性。我们还详细讨论了优缺点，为未来多模态文档生成研究提供了见解。