摘要
arXiv:2407.07880v2 宣告类型: replace-cross
摘要:本研究针对直接偏好优化(DPO)方法中用于调整大型语言模型(LLMs)与人类偏好的训练数据集中的噪声挑战。我们把噪声分类为点噪声,包括低质量的数据点,和对偏好排名产生影响的错误的数据对关联的成对噪声。利用分布鲁棒优化(DRO),我们增强了DPO对这些噪声的抵抗力。我们的理论洞察表明,DPO本⾝内含DRO原则,赋予其对点噪声的鲁棒性,其中正则化系数\(\beta\)在降低噪声影响方面起着关键作用。在此框架的基础上,我们提出了分布鲁棒化DPO(Dr. DPO),通过在最坏情况的成对情景下进行优化来增强成对鲁棒性。Dr. DPO中引入的新型超参数\(\beta'\)允许对数据对的可靠性进行细调控制,提供了在嘈杂的训练环境中平衡探索和利用的策略。实证评估表明,Dr. DPO在生成文本质量和在偏好数据集中响应准确性的提升方面显著改进,在噪声环境和无噪声环境中均展现出增强的性能。代码可在 https://github.com/junkangwu/Dr_DPO 获取。