LLM2D

摘要

偏好优化 (PO) 技术目前是针对人类标注者提供的成对偏好反馈微调大型语言模型 (LLMs) 的最先进技术之一。然而，在机器翻译中，这种反馈很难获得。此外，Kreutzer 等人 (2018) 已经表明，对于机器翻译，成对偏好不如其他形式的人类反馈（例如 5 分制评分）可靠。我们研究了后期编辑，以查看它们是否可以作为可靠的人类偏好来源。在 PO 中，人类标注者会看到序列 $s_1$ 和 $s_2$，并被要求进行偏好判断，%$s_1 > s_2$；而在后期编辑中，编辑会 \emph{创建} $s_1$ 并知道它应该比 $s_2$ 更好。我们尝试将这些隐式偏好用于 PO，并表明它有助于模型朝着后期编辑类假设移动，并远离机器翻译类假设。此外，我们表明，通过在后期编辑上使用监督微调 (SFT) 对模型进行预训练以将后期编辑类假设提升到输出排名顶部，可以获得最佳结果。