LLM2D

摘要

艺术排版是一种以可想象和可读的方式可视化输入字符含义的技术。现有的方法利用强大的文本到图像扩散模型直接设计输入字符的整体几何形状和纹理，这使得同时保证创造性和可读性具有挑战性。本文介绍了一种双分支、免训练的方法，即 VitaGlyph，它能够实现灵活的艺术排版以及可控的几何形状变化以保持可读性。VitaGlyph 的关键在于将输入字符视为由主体和周围环境组成的场景，然后在不同程度的几何变换下渲染它们。主体灵活地表达输入字符的基本概念，而周围环境则丰富相关的背景而不改变形状。具体来说，我们通过三阶段框架实现 VitaGlyph：（i）知识获取利用大型语言模型设计主体和周围环境的文本描述；（ii）区域分解检测最匹配主体描述的部分，并将输入字形图像划分为主体和周围区域；（iii）排版风格化首先通过语义排版细化主体区域的结构，然后通过可控组合生成分别渲染主体和周围区域的纹理。实验结果表明，VitaGlyph 不仅实现了更好的艺术性和可读性，而且能够描绘多种自定义概念，从而促进更具创意和美感的艺术排版生成。我们的代码将公开发布在 https://github.com/Carlofkl/VitaGlyph。