LLM2D

摘要

arXiv:2502.05874v3 表示类型: 替换-交叉摘要：可控的3D场景生成在虚拟现实和室内设计中有广泛的应用，生成的场景在几何结构方面应表现出高度的真实性和可控性。场景图提供了一种适宜的数据表示形式，有助于这些应用。然而，当前基于图的方法在场景生成中仅限于文本输入，并且对灵活的用户输入适应不足，阻碍了对物体几何结构的精确控制。为了解决这个问题，我们提出了一种用于场景生成的双重分支扩散模型MMGDreamer，该模型结合了新颖的混合模态图、视觉增强模块和关系预测器。混合模态图允许物体节点整合文本和视觉模态，并且节点之间可以选择性地存在关系。这增强了对灵活用户输入的适应性，并使生成场景中的物体几何结构控制更加精细。视觉增强模块通过使用文本嵌入构建视觉表示，丰富了仅文本节点的视觉保真度。此外，我们的关系预测器利用节点表示来推断节点之间的缺失关系，从而产生更连贯的场景布局。广泛的实验结果表明，MMGDreamer在控制物体几何结构方面表现出色，实现了最先进的场景生成性能。项目页面：https://yangzhifeio.github.io/project/MMGDreamer。