摘要
arXiv:2410.16770v2 宣告类型: replace-cross
摘要: 我们引入了场景语言,这是一种简洁而精确的视觉场景表示方式,能够描述视觉场景的结构、语义和身份。它通过三个关键组件表示一个场景:一个程序,用于指定场景中实体的层次和关系结构;自然语言词汇,用于概括每个实体的语义类别;以及嵌入式表示,用于捕捉每个实体的视觉身份。该表示可以从预训练的语言模型通过无训练的推理技术推断出来,给定文本或图像输入。生成的场景可以用传统的、神经网络的或混合图形渲染器渲染成图像。这一系统共同构成了一个强大的自动化系统,用于高质量的3D和4D场景生成。与现有的场景图等表示相比,我们提出的场景语言能够生成更高保真度的复杂场景,同时明确建模场景结构以实现精确的控制和编辑。