摘要
arXiv:2502.01949v2 宣告类型: replace-cross
摘要: 近年来,文本指导的3D场景生成领域引起了广泛关注。高质量且与物理现实相一致的生成,并且具有高度可控性,对于实际的3D场景应用至关重要。然而,当前的方法面临着根本性的局限:(i) 难以捕捉文本中描述的多个对象之间的复杂关系,(ii) 无法生成物理上可验证的场景布局,以及(iii) 组合场景缺乏可控性和扩展性。在本文中,我们介绍了一个名为 LayoutDreamer 的框架,该框架利用3D高斯点绘技术(3DGS)来促进由文本引导的高质量、物理上一致的组合场景生成。具体来说,给定一个文本提示,将其转换为有向场景图,并适应性地调整初始组合3D高斯点的密度和布局。随后,基于训练焦点动态调整相机设置,以确保实体级别的生成质量。最后,通过从场景图中提取有向依赖关系,我们定制物理和布局能量,以确保真实性和灵活性。全面的实验表明,LayoutDreamer 在其他组合场景生成质量和语义对齐方法中表现更优。具体来说,它在T3Bench的多对象生成指标上达到了最先进的(SOTA)性能。