LLM2D

摘要

arXiv:2410.16770v2 宣告类型: replace-cross 摘要: 我们引入了场景语言，这是一种简洁而精确的视觉场景表示方式，能够描述视觉场景的结构、语义和身份。它通过三个关键组件表示一个场景：一个程序，用于指定场景中实体的层次和关系结构；自然语言词汇，用于概括每个实体的语义类别；以及嵌入式表示，用于捕捉每个实体的视觉身份。该表示可以从预训练的语言模型通过无训练的推理技术推断出来，给定文本或图像输入。生成的场景可以用传统的、神经网络的或混合图形渲染器渲染成图像。这一系统共同构成了一个强大的自动化系统，用于高质量的3D和4D场景生成。与现有的场景图等表示相比，我们提出的场景语言能够生成更高保真度的复杂场景，同时明确建模场景结构以实现精确的控制和编辑。