LLM2D
场景语言:用程序、词语和嵌入表示场景
The Scene Language: Representing Scenes with Programs, Words, and Embeddings
作者: Yunzhi Zhang, Zizhang Li, Matt Zhou, Shangzhe Wu, Jiajun Wu
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2410.16770v1

摘要

我们提出了一种场景语言,这是一种简洁而精确地描述视觉场景结构、语义和身份的视觉场景表示方法。它用三个关键组件来表示场景:一个程序,用于指定场景中实体的层次和关系结构;自然语言中的词语,用于概括每个实体的语义类别;以及捕捉每个实体视觉身份的嵌入。给定文本或图像输入,这种表示可以通过免训练的推理技术从预训练语言模型中推断出来。生成的场景可以使用传统、神经或混合图形渲染器渲染成图像。总而言之,这形成了一个强大的、自动化的高质量3D和4D场景生成系统。与现有的场景图等表示方法相比,我们提出的场景语言能够生成保真度更高的复杂场景,同时显式地建模场景结构以实现精确的控制和编辑。