LLM2D
PhiP-G:物理引导的文本到3D组合场景生成
PhiP-G: Physics-Guided Text-to-3D Compositional Scene Generation
作者: Qixuan Li, Chao Wang, Zongjin He, Yan Peng
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00708v1

摘要

arXiv:2502.00708v1 宣告类型:交叉 摘要:在2D扩散先验的监督下,文本到3D资产生成已取得了显著的优化。然而,在处理组合场景时,现有方法遇到了几个挑战:1)无法确保组合场景布局符合物理定律;2)难以准确捕捉复杂场景描述中所描述的资产及其关系;3)依赖大规模语言模型(LLMs)的布局方法在自主资产生成方面能力有限。为避免这些妥协,我们提出了一个名为PhiP-G的新颖框架,该框架将生成技术与基于世界模型的布局指导无缝集成。利用基于LLM的智能体,PhiP-G分析复杂的场景描述以生成场景图,并结合一个多模态2D生成智能体和一个3D高斯生成方法进行目标资产创建。在布局阶段,PhiP-G采用具有粘附能力的物理池和一个视觉监督智能体,形成一个世界模型以进行布局预测和规划。广泛实验表明,PhiP-G显著提升了组合场景的生成质量和物理合理性。值得一提的是,PhiP-G在CLIP评分中达到了最先进的(SOTA)性能,在T$^3$Bench的生成质量评估中与领先方法持平,并将效率提高了24倍。