LLM2D

摘要

arXiv:2502.01949v1 宣告类型: cross 摘要：近年来，文本引导的3D场景生成领域引起了广泛关注。高质量生成且与物理现实一致和高度可控的场景对于实际3D场景应用至关重要。然而，现有方法面临着基本的局限性：(i) 难以捕捉文本中描述的多个对象之间的复杂关系，(ii) 无法生成物理上合理的场景布局，以及(iii) 组合场景的可控性和扩展性不足。在本文中，我们引入了LayoutDreamer框架，该框架利用3D Gaussian Splatting (3DGS) 来促进由文本引导的高质量、物理一致的组合场景生成。具体来说，给定一个文本提示，我们将它转换成有向场景图，并根据需要调整初始组合3D高斯分布的密度和布局。随后，基于训练焦距对动态相机进行调整，以确保实体级别的生成质量。最后，通过从场景图中提取有向依赖关系，我们定制物理和布局能量，以确保现实感和灵活性。全面的实验结果表明，LayoutDreamer在其他组合场景生成质量和语义对齐方法中表现更优。具体而言，它在T3Bench的多对象生成度量标准上达到了最先进的性能（SOTA）。