LLM2D

摘要

我们提出了一种场景语言，这是一种简洁而精确地描述视觉场景结构、语义和身份的视觉场景表示方法。它用三个关键组件来表示场景：一个程序，用于指定场景中实体的层次和关系结构；自然语言中的词语，用于概括每个实体的语义类别；以及捕捉每个实体视觉身份的嵌入。给定文本或图像输入，这种表示可以通过免训练的推理技术从预训练语言模型中推断出来。生成的场景可以使用传统、神经或混合图形渲染器渲染成图像。总而言之，这形成了一个强大的、自动化的高质量3D和4D场景生成系统。与现有的场景图等表示方法相比，我们提出的场景语言能够生成保真度更高的复杂场景，同时显式地建模场景结构以实现精确的控制和编辑。