LLM2D

摘要

arXiv:2405.20216v3 宣告类型: replace-cross 摘要：由于其广泛的应用前景，人类图像生成是图像合成的关键研究领域，但即使细微的解剖、姿态或细节不准确也会破坏写实性。为解决这些挑战，我们探讨了直接偏好优化(DPO)方法，该方法训练模型生成偏好（获胜）图像的同时避免生成非偏好（失败）图像。然而，传统的DPO方法使用生成的图像作为获胜图像，限制了其写实性。为了克服这一限制，我们提出了一种增强的DPO方法，该方法结合了高质量的实际情况图像作为获胜图像，促使输出更接近实际情况图像而非生成图像。然而，实现这一概念并不容易。因此，我们的方法，HG-DPO（通过DPO的人类图像生成），采用了一种新颖的递进学习框架，逐步提高模型输出的写实度，从而使训练更为可行。此外，HG-DPO能够有效适应个性化的文本到图像任务，生成高质量且身份特定的图像，突显了我们方法的实际价值。