LLM2D
T2I-R1:基于协作的语义级和token级共情增强图像生成
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
作者: Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00703v1

摘要

arXiv:2505.00703v1 类型: cross 摘要: 近来大型语言模型的发展展示了如何通过思维链(CoT)和强化学习(RL)来提高性能。然而,将这种推理策略应用于视觉生成领域仍 largely unexplored。在本文中,我们提出了 T2I-R1,一种通过带有双层思维链(CoT)推理过程的 RL 驱动的新型增强推理的文本到图像生成模型。具体而言,我们识别了两个可以用于生成过程中不同阶段增强的思维链层次结构:(1) 语义层次的思维链,用于提示的高层次规划;(2) 令牌层次的思维链,用于分块生成期间的低层次像素处理。为了更好地协调这两个层次的思维链,我们引入了 BiCoT-GRPO,并通过一组生成奖励无缝优化了同一训练步骤中的两个生成思维链。通过将我们的推理策略应用于基准模型 Janus-Pro,我们在 T2I-CompBench 上实现了 13% 的性能提升,并在 WISE 基准上实现了 19% 的性能提升,甚至超过了最先进的模型 FLUX。1. 代码可在 https://github.com/CaraJ7/T2I-R1 获取