摘要
arXiv:2405.06424v3 宣告类型: replace-cross
摘要:评估语言模型对指令的响应质量至关重要但极具挑战性,因为不同语境下的人类语言复杂性极高。这种复杂性常常导致歧义或不一致的解释,使得准确评估变得困难。为了解决这一问题,我们提出了一种新颖的不确定性感知奖励模型(URM),它基于贝叶斯近似引入了对配对响应质量的稳健不确定性估计。通过偏好数据集训练,我们这个启用不确定性的代理不仅可以对响应评分,还能评估它们的固有不确定性。实验证明,在语言模型训练中引入提出的代理具有显著优势。我们的方法通过细化训练数据的编撰和改善策略优化目标来提升语言模型遵循指令的能力,从而在如Vicuna和MT-bench等基准测试上大大超越现有方法。这些发现突显了我们提出的这种方法在语言模型训练中显著推动的进步,并开创了一种利用语言模型内不确定性的新途径。