LLM2D

摘要

我们介绍了 Playground v3 (PGv3)，这是我们最新的文本到图像模型，它在多个测试基准中取得了最先进 (SoTA) 的性能，在图形设计能力方面表现出色，并引入了新的功能。与传统的文本到图像生成模型不同，传统的模型依赖于预训练的语言模型（如 T5 或 CLIP 文本编码器），我们的方法将大型语言模型 (LLM) 与一种新颖的结构完全集成，该结构仅利用来自解码器专用 LLM 的文本条件。此外，为了提高图像字幕的质量，我们开发了一个内部字幕器，它能够生成不同细节级别的字幕，丰富了文本结构的多样性。我们还引入了一个新的基准 CapsBench 来评估详细的图像字幕性能。实验结果表明，PGv3 在文本提示遵守、复杂推理和准确的文本渲染方面表现出色。用户偏好研究表明，我们的模型在常见设计应用（如贴纸、海报和徽标设计）中具有超人的图形设计能力。此外，PGv3 还引入了新的功能，包括精确的 RGB 颜色控制和强大的多语言理解。