LLM2D

摘要

arXiv:2405.20216v2 公告类型: replace-cross 摘要：人类图像生成是图像合成中的一个重要研究方向，由于其广泛的应用前景，但即使是解剖结构、姿态或细节上的轻微不准确也会影响真实感。为了解决这些挑战，我们探索了直接偏好优化（DPO），该方法训练模型生成优选（获胜）图像，同时偏离非优选（失败）图像。然而，传统的DPO方法使用生成的图像作为获胜图像，限制了真实感。为了克服这一限制，我们提出了一种增强的DPO方法，该方法将高质量的现实图像作为获胜图像，促使输出更接近现实图像而非生成图像。然而，实现这一概念并不是一件简单的事情。因此，我们的方法HG-DPO（通过DPO的人类图像生成）采用了新颖的教学计划框架，逐步提高模型输出的真实感，使得训练更加可行。此外，HG-DPO能够有效地适应个性化文本到图像的任务，生成高质量和身份特定的图像，突显了我们方法的实际价值。