LLM2D

摘要

arXiv:2502.01949v2 宣告类型: replace-cross 摘要: 近年来，文本指导的3D场景生成领域引起了广泛关注。高质量且与物理现实相一致的生成，并且具有高度可控性，对于实际的3D场景应用至关重要。然而，当前的方法面临着根本性的局限：(i) 难以捕捉文本中描述的多个对象之间的复杂关系，(ii) 无法生成物理上可验证的场景布局，以及(iii) 组合场景缺乏可控性和扩展性。在本文中，我们介绍了一个名为 LayoutDreamer 的框架，该框架利用3D高斯点绘技术（3DGS）来促进由文本引导的高质量、物理上一致的组合场景生成。具体来说，给定一个文本提示，将其转换为有向场景图，并适应性地调整初始组合3D高斯点的密度和布局。随后，基于训练焦点动态调整相机设置，以确保实体级别的生成质量。最后，通过从场景图中提取有向依赖关系，我们定制物理和布局能量，以确保真实性和灵活性。全面的实验表明，LayoutDreamer 在其他组合场景生成质量和语义对齐方法中表现更优。具体来说，它在T3Bench的多对象生成指标上达到了最先进的（SOTA）性能。