摘要
能够进行人类水平评估的通用大型语言模型 (LLM) 评判器不仅提供了一种可扩展且准确的评估指令遵循型 LLM 的方法,也为监督和改进其性能开辟了新的途径。利用 LLM 评判器进行监督的一种很有前景的方式是通过最小贝叶斯风险 (MBR) 解码,它使用基于参考的评估器从一组候选输出中选择高质量的输出。在这项工作的第一部分,我们探索使用 MBR 解码作为一种方法来提高指令遵循型 LLM 的测试时性能。我们发现,使用基于参考的 LLM 评判器的 MBR 解码在 AlpacaEval 和 MT-Bench 上显著优于贪婪解码、使用无参考评判器的最佳 N 解码以及使用词汇和嵌入式指标的 MBR 解码。这些收益在参数量高达 700 亿的 LLM 中是一致的,表明较小的 LLM 评判器可以用来监督更大的 LLM。然后,为了在减轻额外测试时成本的同时保留 MBR 解码的改进,我们探索了对 MBR 解码输出进行迭代自训练。我们发现,使用直接偏好优化进行的自训练会导致显著的性能提升,使得使用贪婪解码的自训练模型通常能够匹配甚至超过其使用 MBR 解码的基本模型的性能。