LLM2D
Playground v3:基于深度融合的大语言模型改进文本到图像的对齐
Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models
作者: Bingchen Liu, Ehsan Akhgari, Alexander Visheratin, Aleks Kamko, Linmiao Xu, Shivam Shrirao, Chase Lambert, Joao Souza, Suhail Doshi, Daiqing Li
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2409.10695v2

摘要

我们介绍了 Playground v3 (PGv3),这是我们最新的文本到图像模型,它在多个测试基准中取得了最先进 (SoTA) 的性能,在图形设计能力方面表现出色,并引入了新的功能。与传统的文本到图像生成模型不同,传统的模型依赖于预训练的语言模型(如 T5 或 CLIP 文本编码器),我们的方法将大型语言模型 (LLM) 与一种新颖的结构完全集成,该结构仅利用来自解码器专用 LLM 的文本条件。此外,为了提高图像字幕的质量,我们开发了一个内部字幕器,它能够生成不同细节级别的字幕,丰富了文本结构的多样性。我们还引入了一个新的基准 CapsBench 来评估详细的图像字幕性能。实验结果表明,PGv3 在文本提示遵守、复杂推理和准确的文本渲染方面表现出色。用户偏好研究表明,我们的模型在常见设计应用(如贴纸、海报和徽标设计)中具有超人的图形设计能力。此外,PGv3 还引入了新的功能,包括精确的 RGB 颜色控制和强大的多语言理解。