LLM2D

摘要

尽管文本到图像生成技术取得了最新进展，但大多数现有方法难以生成包含多个物体和复杂空间关系的 3D 世界图像。为了克服这一局限性，我们引入了一种通用的 AI 系统，名为 MUSES，用于从用户查询生成 3D 可控图像。具体来说，我们的 MUSES 通过开发一个包含三个关键组件的渐进式工作流程来解决这一挑战性任务，包括 (1) 用于 2D 到 3D 布局提升的布局管理器，(2) 用于 3D 物体获取和校准的模型工程师，(3) 用于 3D 到 2D 图像渲染的图像艺术家。通过模仿人类专业人士的协作，这种多模态代理管道通过可解释的整合自上而下的规划和自下而上的生成，有效地自动创建包含 3D 可控物体的图像。此外，我们发现现有基准缺乏对多个物体复杂 3D 空间关系的详细描述。为了填补这一空白，我们进一步构建了一个名为 T2I-3DisBench（3D 图像场景）的新基准，该基准用 50 个详细提示描述了各种 3D 图像场景。大量实验表明，MUSES 在 T2I-CompBench 和 T2I-3DisBench 上都取得了最先进的性能，优于 DALL-E 3 和 Stable Diffusion 3 等最近的强大竞争对手。这些结果表明，MUSES 在连接自然语言、2D 图像生成和 3D 世界方面迈出了重要一步。我们的代码可在以下链接获取：https://github.com/DINGYANB/MUSES。