LLM2D

摘要

arXiv:2502.00708v1 宣告类型：交叉摘要：在2D扩散先验的监督下，文本到3D资产生成已取得了显著的优化。然而，在处理组合场景时，现有方法遇到了几个挑战：1）无法确保组合场景布局符合物理定律；2）难以准确捕捉复杂场景描述中所描述的资产及其关系；3）依赖大规模语言模型（LLMs）的布局方法在自主资产生成方面能力有限。为避免这些妥协，我们提出了一个名为PhiP-G的新颖框架，该框架将生成技术与基于世界模型的布局指导无缝集成。利用基于LLM的智能体，PhiP-G分析复杂的场景描述以生成场景图，并结合一个多模态2D生成智能体和一个3D高斯生成方法进行目标资产创建。在布局阶段，PhiP-G采用具有粘附能力的物理池和一个视觉监督智能体，形成一个世界模型以进行布局预测和规划。广泛实验表明，PhiP-G显著提升了组合场景的生成质量和物理合理性。值得一提的是，PhiP-G在CLIP评分中达到了最先进的（SOTA）性能，在T$^3$Bench的生成质量评估中与领先方法持平，并将效率提高了24倍。