LLM2D

摘要

arXiv:2412.12463v2 Announce Type: replace-cross 摘要：模式图像在数字和物理世界中无处不在，编辑它们的工具非常重要。但编辑模式图像往往很棘手：所需的编辑往往是程序化的：结构感知的编辑，它们会改变生成模式的基础程序。人们可以尝试推断出这种基础程序，但当前为此目的的方法对于复杂的图像而言效果不佳，并且生成的程序往往是杂乱无章的，使得编辑变得繁琐。在本文中，我们介绍了一种新的方法，用于对模式图像进行程序化编辑。通过使用模式类比——一对简单的模式来展示所期望的编辑——以及学习驱动的生成模型来执行这些编辑，我们的方法使用户能够直观地编辑模式。为使这一范式得以实现，我们引入了SplitWeave，这是一种领域特定语言，结合了一种生成合成模式类比的采样框架，从而能够创建一个庞大且高质量的合成训练数据集。我们还介绍了TriFuser，这是一种潜空间扩散模型（LDM），设计用于解决在简单部署LDM到此任务时出现的关键问题。在对实际世界、艺术家提供的模式进行的广泛实验中，我们发现我们的方法不仅忠实地执行了展示的编辑，还能泛化到其训练分布之外的相关模式风格。