LLM2D

摘要

arXiv:2410.10166v2 公告类型: 交叉替换摘要：使用人类反馈对文本到图像扩散模型进行微调是一种有效的方法，用于使模型行为与人类意图保持一致。然而，由于人类反馈数据集中存在噪声和数据量大，这一对齐过程往往受到收敛缓慢的困扰。在本文中，我们提出了一种名为FiFA的新型自动化数据过滤算法，旨在通过直接偏好优化（DPO）增强使用人类反馈数据集对扩散模型进行微调的效果。具体来说，我们的方法通过解决一个优化问题来选择数据，以最大化三个组成部分：偏好边距、文本质量和文本多样性。偏好边距的概念被用来识别能够有效应对反馈数据集中的噪音的样本，该距离由代理奖励模型计算得到。此外，我们通过大型语言模型评估文本质量，以防止内容有害，并通过k最近邻熵估计器考虑文本多样性，以提高泛化能力。最后，我们将所有这些组成部分整合到一个优化过程中，通过为每个数据对分配重要性分数并选择最重要的数据对来近似解决方案。因此，我们的方法能够自动过滤数据，无需手动干预，并可以适用于任何大规模数据集。实验结果表明，FiFA显著提高了训练稳定性并实现了更好的性能，相比于使用完整的全人类反馈数据集，它被人类偏好17%更优，同时仅使用了不到0.5%的完整数据和因此仅使用了1%的GPU小时。