摘要
尽管文本到图像生成技术取得了进展,但大多数现有方法难以生成具有多个对象和复杂空间关系的 3D 世界图像。为了克服这一限制,我们引入了一个通用的 AI 系统,即 MUSES,用于根据用户查询生成可 3D 控制的图像。具体来说,MUSES 通过开发一个具有三个关键组成部分的渐进式工作流程来解决这一具有挑战性的任务,包括 (1) 布局管理器,用于 2D 到 3D 布局提升,(2) 模型工程师,用于 3D 对象获取和校准,(3) 图像艺术家,用于 3D 到 2D 图像渲染。通过模仿人类专业人士的协作,这种多模态代理管道通过可解释地整合自上而下的规划和自下而上的生成,促进了具有 3D 可控对象的图像的有效和自动创建。此外,我们发现现有的基准测试缺乏对多个对象的复杂 3D 空间关系的详细描述。为了填补这一空白,我们进一步构建了一个新的 T2I-3DisBench(3D 图像场景)基准测试,该基准测试用 50 个详细提示描述了各种 3D 图像场景。大量实验表明,MUSES 在 T2I-CompBench 和 T2I-3DisBench 上都取得了最先进的性能,优于 DALL-E 3 和 Stable Diffusion 3 等最新的强大竞争对手。这些结果表明,MUSES 在连接自然语言、2D 图像生成和 3D 世界方面迈出了重要的一步。我们的代码和模型将很快发布。