摘要
arXiv:2405.20216v3 宣告类型: replace-cross
摘要:由于其广泛的应用前景,人类图像生成是图像合成的关键研究领域,但即使细微的解剖、姿态或细节不准确也会破坏写实性。为解决这些挑战,我们探讨了直接偏好优化(DPO)方法,该方法训练模型生成偏好(获胜)图像的同时避免生成非偏好(失败)图像。然而,传统的DPO方法使用生成的图像作为获胜图像,限制了其写实性。为了克服这一限制,我们提出了一种增强的DPO方法,该方法结合了高质量的实际情况图像作为获胜图像,促使输出更接近实际情况图像而非生成图像。然而,实现这一概念并不容易。因此,我们的方法,HG-DPO(通过DPO的人类图像生成),采用了一种新颖的递进学习框架,逐步提高模型输出的写实度,从而使训练更为可行。此外,HG-DPO能够有效适应个性化的文本到图像任务,生成高质量且身份特定的图像,突显了我们方法的实际价值。