LLM2D

摘要

自动场景生成是一个重要的研究领域，在机器人技术、娱乐、视觉表示、训练与仿真、教育等方面有着广泛的应用。本综述全面回顾了自动场景生成的最新技术，重点关注利用机器学习、深度学习、嵌入式系统和自然语言处理 (NLP) 的技术。我们将模型分为四种主要类型：变分自动编码器 (VAE)、生成对抗网络 (GAN)、Transformer 和扩散模型。详细探讨了每个类别，讨论了各种子模型及其对该领域的贡献。我们还回顾了最常用的数据集，例如 COCO-Stuff、Visual Genome 和 MS-COCO，这些数据集对于训练和评估这些模型至关重要。考察了场景生成的方法，包括图像到 3D 转换、文本到 3D 生成、UI/布局设计、基于图的方法和交互式场景生成。在评估模型性能的背景下，讨论了诸如 Fréchet Inception Distance (FID)、Kullback-Leibler (KL) Divergence、Inception Score (IS)、Intersection over Union (IoU) 和 Mean Average Precision (mAP) 等评估指标。综述指出了该领域的关键挑战和局限性，例如保持真实感、处理包含多个对象的复杂场景以及确保对象关系和空间排列的一致性。通过总结最新进展并指出改进方向，本综述旨在为从事自动场景生成研究的科研人员和从业人员提供宝贵的资源。