LLM2D

摘要

潜在一致性蒸馏 (LCD) 已成为一种很有前景的有效文本到图像合成范式。通过从预训练的教师潜在扩散模型 (LDM) 中蒸馏潜在一致性模型 (LCM)，LCD 能够在仅 2 到 4 个推理步骤内生成高保真图像。然而，LCM 的高效推理是以牺牲样本质量为代价的。在本文中，我们提出通过在训练过程中将 LCM 的输出与人类偏好对齐来补偿质量损失。具体来说，我们引入了奖励引导的 LCD (RG-LCD)，它通过用最大化与 LCM 单步生成相关的奖励的目标来增强原始 LCD 损失，从而将奖励模型 (RM) 的反馈集成到 LCD 过程中。经人类评估验证，当使用好的 RM 的反馈进行训练时，我们的 RG-LCM 的 2 步生成比教师 LDM 的 50 步 DDIM 样本更受人类青睐，这意味着推理速度提高了 25 倍，而不会损失质量。由于直接针对可微 RM 进行优化可能会导致过度优化，我们通过提出使用潜在代理 RM (LRM) 来克服这一困难。这个新组件充当中间体，连接我们的 LCM 和 RM。根据经验，我们证明将 LRM 集成到我们的 RG-LCD 中成功避免了生成图像中的高频噪声，这有助于提高 MS-COCO 上的 Fr´echet Inception Distance (FID) 和 HPSv2 测试集上的 HPSv2.1 分数，超过了基线 LCM 达到的分数。