LLM2D
奖励引导的潜在一致性蒸馏
Reward Guided Latent Consistency Distillation
作者: Jiachen Li, Weixi Feng, Wenhu Chen, William Yang Wang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2403.11027v2

摘要

潜在一致性蒸馏 (LCD) 已成为一种很有前景的有效文本到图像合成范式。通过从预训练的教师潜在扩散模型 (LDM) 中蒸馏潜在一致性模型 (LCM),LCD 能够在仅 2 到 4 个推理步骤内生成高保真图像。然而,LCM 的高效推理是以牺牲样本质量为代价的。在本文中,我们提出通过在训练过程中将 LCM 的输出与人类偏好对齐来补偿质量损失。具体来说,我们引入了奖励引导的 LCD (RG-LCD),它通过用最大化与 LCM 单步生成相关的奖励的目标来增强原始 LCD 损失,从而将奖励模型 (RM) 的反馈集成到 LCD 过程中。经人类评估验证,当使用好的 RM 的反馈进行训练时,我们的 RG-LCM 的 2 步生成比教师 LDM 的 50 步 DDIM 样本更受人类青睐,这意味着推理速度提高了 25 倍,而不会损失质量。 由于直接针对可微 RM 进行优化可能会导致过度优化,我们通过提出使用潜在代理 RM (LRM) 来克服这一困难。这个新组件充当中间体,连接我们的 LCM 和 RM。根据经验,我们证明将 LRM 集成到我们的 RG-LCD 中成功避免了生成图像中的高频噪声,这有助于提高 MS-COCO 上的 Fr´echet Inception Distance (FID) 和 HPSv2 测试集上的 HPSv2.1 分数,超过了基线 LCM 达到的分数。