LLM2D

摘要

通过稳定扩散 (SD) 微调实现可控生成旨在提高保真度、安全性以及与人类引导的一致性。现有的从人类反馈中进行强化学习的方法通常依赖于预定义的启发式奖励函数或建立在大型数据集上的预训练奖励模型，这限制了它们在收集此类数据成本高昂或困难的情况下的适用性。为了有效且高效地利用人类反馈，我们开发了一个名为 HERO 的框架，它利用在模型学习过程中即时收集的在线人类反馈。具体来说，HERO 具有两个关键机制：(1) 反馈对齐表示学习，这是一种在线训练方法，它捕获人类反馈并为微调提供信息丰富的学习信号；(2) 反馈引导图像生成，它涉及从 SD 的细化初始化样本中生成图像，从而能够更快地收敛到评估者的意图。我们证明，与现有的最佳方法相比，HERO 在在线反馈方面对于身体部位异常校正的效率提高了 4 倍。此外，实验表明，HERO 可以有效地处理推理、计数、个性化以及减少 NSFW 内容等任务，而只需 0.5K 在线反馈。