LLM2D

摘要

arXiv:2502.01949v1 投稿类型：交叉摘要：近年来，基于文本引导的3D场景生成领域引起了广泛关注。优质生成与物理现实的契合度和高度可控性对于实际3D场景应用至关重要。然而，现有方法面临着根本性的限制：（i）难以捕捉文本中描述的多个对象之间的复杂关系，（ii）无法生成物理上合理的场景布局，以及（iii）在组合场景中的可控性和扩展性不足。在本文中，我们提出了LayoutDreamer框架，该框架利用3D高斯点绘制（3DGS）来促进以文本为指导的高质量、物理一致的组合场景生成。具体来说，对于给定的文本提示，我们将其转换为定向场景图，并适应性地调整初步组合3D高斯分布的数量密度和布局。随后，根据训练焦点动态调整相机参数，以确保实体级别的生成质量。最后，通过从场景图中提取定向依赖关系，我们为物理和布局能量进行定制，以确保现实性和灵活性。全面的实验表明，LayoutDreamer在其他组合场景生成质量和语义对齐方法中表现出色。具体而言，它在T3Bench的多对象生成度量标准上达到了最先进的（SOTA）性能。