摘要
能够进行人类水平评估的通用大型语言模型 (LLM) 评判者不仅提供了一种可扩展且准确的方式来评估指令遵循型 LLM,而且还为监督和改进其性能开辟了新的途径。利用 LLM 评判者进行监督的一种很有前途的方式是通过最小贝叶斯风险 (MBR) 解码,它使用基于参考的评估器从一组候选输出中选择高质量的输出。在这项工作的第一部分中,我们探讨了使用 MBR 解码来提高指令遵循型 LLM 测试时性能的方法。我们发现,与贪婪解码、使用无参考评判者的最佳 N 解码以及基于词汇和嵌入的指标的 MBR 解码相比,使用基于参考的 LLM 评判者的 MBR 解码在 AlpacaEval 和 MT-Bench 上取得了显著的改进。这些改进在高达 700 亿参数的 LLM 中保持一致,表明较小的 LLM 评判者可以用来监督更大的 LLM。然后,为了在减轻额外的测试时成本的同时保留 MBR 解码带来的改进,我们探索了对 MBR 解码输出进行的迭代自训练。我们发现,使用直接偏好优化进行的自训练会导致显著的性能提升,使得使用贪婪解码的自训练模型通常与使用 MBR 解码的基模型性能相当,有时甚至超过基模型性能。