LLM2D

SimulPL：同时机器翻译中的人类偏好对齐

SimulPL: Aligning Human Preferences in Simultaneous Machine Translation

作者: Donglei Yu, Yang Zhao, Jie Zhu, Yangyifan Xu, Yu Zhou, Chengqing Zong

发布日期: 2/6/2025

arXiv ID: oai:arXiv.org:2502.00634v2

摘要

arXiv:2502.00634v2 安布类型: replace-cross 摘要: 同步机器翻译（SiMT）在其接收流式源输入时生成翻译。这要求SiMT模型学习读写策略，决定何时翻译以及何时等待更多源输入。大量语言学研究表明，在SiMT场景中的观众有不同的偏好，例如准确的翻译、简单的语法和不必要的延迟。调整SiMT模型以与这些人类偏好相一致对提高其性能至关重要。然而，这个问题仍然未被探索。此外，SiMT任务中的偏好优化也具有挑战性。现有方法仅专注于优化生成的响应，忽略了偏好优化阶段与延迟和读写策略优化相关的人类偏好。为解决这些挑战，我们提出了Simultaneous Preference Learning（SimulPL），这是一种针对SiMT任务的偏好学习框架。在SimulPL框架中，我们将SiMT人类偏好分为五个方面：翻译质量偏好、单调性偏好、关键点偏好、简洁性偏好和延迟偏好。通过利用前四个偏好，我们构建了人类偏好提示，以高效地引导GPT-4/4o生成SiMT任务的偏好数据。在偏好优化阶段，SimulPL将延迟偏好整合到优化目标中，并使SiMT模型能够改进读写策略，从而更有效地与人类偏好相一致。实验结果表明，在Zh→En、De→En和En→Zh SiMT任务的所有延迟级别上，SimulPL与人类偏好的一致程度更好。我们的数据和代码将可从https://github.com/EurekaForNLP/SimulPL获取。

查看原文下载 PDF