摘要
arXiv:2502.05874v3 表示类型: 替换-交叉
摘要:可控的3D场景生成在虚拟现实和室内设计中有广泛的应用,生成的场景在几何结构方面应表现出高度的真实性和可控性。场景图提供了一种适宜的数据表示形式,有助于这些应用。然而,当前基于图的方法在场景生成中仅限于文本输入,并且对灵活的用户输入适应不足,阻碍了对物体几何结构的精确控制。为了解决这个问题,我们提出了一种用于场景生成的双重分支扩散模型MMGDreamer,该模型结合了新颖的混合模态图、视觉增强模块和关系预测器。混合模态图允许物体节点整合文本和视觉模态,并且节点之间可以选择性地存在关系。这增强了对灵活用户输入的适应性,并使生成场景中的物体几何结构控制更加精细。视觉增强模块通过使用文本嵌入构建视觉表示,丰富了仅文本节点的视觉保真度。此外,我们的关系预测器利用节点表示来推断节点之间的缺失关系,从而产生更连贯的场景布局。广泛的实验结果表明,MMGDreamer在控制物体几何结构方面表现出色,实现了最先进的场景生成性能。项目页面:https://yangzhifeio.github.io/project/MMGDreamer。