LLM2D
布局梦想家:物理引导的布局用于文本到3D组成功能场景生成
LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation
作者: Yang Zhou, Zongjin He, Qixuan Li, Chao Wang
发布日期: 2/5/2025
arXiv ID: 2502.01949

摘要

arXiv:2502.01949v1 投稿类型:交叉 摘要:近年来,基于文本引导的3D场景生成领域引起了广泛关注。优质生成与物理现实的契合度和高度可控性对于实际3D场景应用至关重要。然而,现有方法面临着根本性的限制:(i)难以捕捉文本中描述的多个对象之间的复杂关系,(ii)无法生成物理上合理的场景布局,以及(iii)在组合场景中的可控性和扩展性不足。在本文中,我们提出了LayoutDreamer框架,该框架利用3D高斯点绘制(3DGS)来促进以文本为指导的高质量、物理一致的组合场景生成。具体来说,对于给定的文本提示,我们将其转换为定向场景图,并适应性地调整初步组合3D高斯分布的数量密度和布局。随后,根据训练焦点动态调整相机参数,以确保实体级别的生成质量。最后,通过从场景图中提取定向依赖关系,我们为物理和布局能量进行定制,以确保现实性和灵活性。全面的实验表明,LayoutDreamer在其他组合场景生成质量和语义对齐方法中表现出色。具体而言,它在T3Bench的多对象生成度量标准上达到了最先进的(SOTA)性能。