LLM2D

摘要

偏好优化 (PO) 技术目前是利用人类标注者提供的成对偏好反馈来微调大型语言模型 (LLM) 的最先进技术之一。然而，在机器翻译中，这种反馈很难获得。此外，Kreutzer 等人 (2018) 已经表明，对于机器翻译而言，成对偏好不如其他形式的人类反馈（例如 5 分制评分）可靠。我们研究后期编辑，以查看它们是否可以作为可靠的人类偏好的来源。在 PO 中，人类标注者会看到序列 s₁ 和 s₂ 并被要求进行偏好判断（s₁ > s₂）；而对于后期编辑，编辑会创建 s₁ 并知道它应该比 s₂ 更好。我们尝试将这些隐式偏好用于 PO，并表明它有助于模型向类似后期编辑的假设移动，并远离类似机器翻译的假设。此外，我们表明，通过使用后期编辑进行监督微调 (SFT) 预训练模型，以促进类似后期编辑的假设进入顶级输出排名，可以获得最佳结果。