摘要
偏好优化 (PO) 技术目前是针对人类标注者提供的成对偏好反馈微调大型语言模型 (LLMs) 的最先进技术之一。然而,在机器翻译中,这种反馈很难获得。此外,Kreutzer 等人 (2018) 已经表明,对于机器翻译,成对偏好不如其他形式的人类反馈(例如 5 分制评分)可靠。
我们研究了后期编辑,以查看它们是否可以作为可靠的人类偏好来源。在 PO 中,人类标注者会看到序列 $s_1$ 和 $s_2$,并被要求进行偏好判断,%$s_1 > s_2$;而在后期编辑中,编辑会 \emph{创建} $s_1$ 并知道它应该比 $s_2$ 更好。我们尝试将这些隐式偏好用于 PO,并表明它有助于模型朝着后期编辑类假设移动,并远离机器翻译类假设。此外,我们表明,通过在后期编辑上使用监督微调 (SFT) 对模型进行预训练以将后期编辑类假设提升到输出排名顶部,可以获得最佳结果。