LLM2D

摘要

arXiv:2502.05874v1 宣言类型：交叉摘要：可控的3D场景生成在虚拟现实和室内设计中有着广泛的应用，生成的场景需要在几何方面表现出高度的真实性和可控性。场景图提供了一种合适的数据表示形式，有利于这些应用。然而，当前基于图的方法在场景生成中仅限于基于文本的输入，并且对于灵活的用户输入表现出了不足的适应性，妨碍了对物体几何结构的精确控制。为了解决这个问题，我们提出了一种用于场景生成的双分支扩散模型MMGDreamer，该模型结合了新颖的混合模式图、视觉增强模块和关系预测器。混合模式图允许物体节点整合文本和视觉模态，并可选地在节点之间建立关系，从而增强了对灵活用户输入的适应性，并使生成场景中的物体几何结构控制更加细致。视觉增强模块通过使用文本嵌入构建视觉表示，丰富了仅基于文本的节点的视觉保真度。此外，我们的关系预测器利用节点表示来推断节点之间缺失的关系，从而实现更连贯的场景布局。广泛的实验结果表明，MMGDreamer在物体几何结构的控制方面表现出优越性，达到了最先进的场景生成性能。项目页面：https://yangzhifeio.github.io/project/MMGDreamer。