LLM2D
布局梦想家:物理引导的布局用于文本到三维组合场景生成
LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation
作者: Yang Zhou, Zongjin He, Qixuan Li, Chao Wang
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01949v1

摘要

arXiv:2502.01949v1 宣告类型: cross 摘要:近年来,文本引导的3D场景生成领域引起了广泛关注。高质量生成且与物理现实一致和高度可控的场景对于实际3D场景应用至关重要。然而,现有方法面临着基本的局限性:(i) 难以捕捉文本中描述的多个对象之间的复杂关系,(ii) 无法生成物理上合理的场景布局,以及(iii) 组合场景的可控性和扩展性不足。在本文中,我们引入了LayoutDreamer框架,该框架利用3D Gaussian Splatting (3DGS) 来促进由文本引导的高质量、物理一致的组合场景生成。具体来说,给定一个文本提示,我们将它转换成有向场景图,并根据需要调整初始组合3D高斯分布的密度和布局。随后,基于训练焦距对动态相机进行调整,以确保实体级别的生成质量。最后,通过从场景图中提取有向依赖关系,我们定制物理和布局能量,以确保现实感和灵活性。全面的实验结果表明,LayoutDreamer在其他组合场景生成质量和语义对齐方法中表现更优。具体而言,它在T3Bench的多对象生成度量标准上达到了最先进的性能(SOTA)。