LLM2D

摘要

arXiv:2407.07880v2 宣告类型: replace-cross 摘要：本研究针对直接偏好优化(DPO)方法中用于调整大型语言模型(LLMs)与人类偏好的训练数据集中的噪声挑战。我们把噪声分类为点噪声，包括低质量的数据点，和对偏好排名产生影响的错误的数据对关联的成对噪声。利用分布鲁棒优化(DRO)，我们增强了DPO对这些噪声的抵抗力。我们的理论洞察表明，DPO本⾝内含DRO原则，赋予其对点噪声的鲁棒性，其中正则化系数\(\beta\)在降低噪声影响方面起着关键作用。在此框架的基础上，我们提出了分布鲁棒化DPO(Dr. DPO)，通过在最坏情况的成对情景下进行优化来增强成对鲁棒性。Dr. DPO中引入的新型超参数\(\beta'\)允许对数据对的可靠性进行细调控制，提供了在嘈杂的训练环境中平衡探索和利用的策略。实证评估表明，Dr. DPO在生成文本质量和在偏好数据集中响应准确性的提升方面显著改进，在噪声环境和无噪声环境中均展现出增强的性能。代码可在 https://github.com/junkangwu/Dr_DPO 获取。