LLM2D
MMGDreamer:混合模态图用于几何可控的3D室内场景生成
MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation
作者: Zhifei Yang, Keyang Lu, Chao Zhang, Jiaxing Qi, Hanqi Jiang, Ruifei Ma, Shenglin Yin, Yifan Xu, Mingzhe Xing, Zhen Xiao, Jieyi Long, Xiangde Liu, Guangyao Zhai
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05874v1

摘要

arXiv:2502.05874v1 宣言类型:交叉 摘要:可控的3D场景生成在虚拟现实和室内设计中有着广泛的应用,生成的场景需要在几何方面表现出高度的真实性和可控性。场景图提供了一种合适的数据表示形式,有利于这些应用。然而,当前基于图的方法在场景生成中仅限于基于文本的输入,并且对于灵活的用户输入表现出了不足的适应性,妨碍了对物体几何结构的精确控制。为了解决这个问题,我们提出了一种用于场景生成的双分支扩散模型MMGDreamer,该模型结合了新颖的混合模式图、视觉增强模块和关系预测器。混合模式图允许物体节点整合文本和视觉模态,并可选地在节点之间建立关系,从而增强了对灵活用户输入的适应性,并使生成场景中的物体几何结构控制更加细致。视觉增强模块通过使用文本嵌入构建视觉表示,丰富了仅基于文本的节点的视觉保真度。此外,我们的关系预测器利用节点表示来推断节点之间缺失的关系,从而实现更连贯的场景布局。广泛的实验结果表明,MMGDreamer在物体几何结构的控制方面表现出优越性,达到了最先进的场景生成性能。项目页面:https://yangzhifeio.github.io/project/MMGDreamer。