摘要
arXiv:2502.00634v2 安布类型: replace-cross
摘要: 同步机器翻译(SiMT)在其接收流式源输入时生成翻译。这要求SiMT模型学习读写策略,决定何时翻译以及何时等待更多源输入。大量语言学研究表明,在SiMT场景中的观众有不同的偏好,例如准确的翻译、简单的语法和不必要的延迟。调整SiMT模型以与这些人类偏好相一致对提高其性能至关重要。然而,这个问题仍然未被探索。此外,SiMT任务中的偏好优化也具有挑战性。现有方法仅专注于优化生成的响应,忽略了偏好优化阶段与延迟和读写策略优化相关的人类偏好。为解决这些挑战,我们提出了Simultaneous Preference Learning(SimulPL),这是一种针对SiMT任务的偏好学习框架。在SimulPL框架中,我们将SiMT人类偏好分为五个方面:翻译质量偏好、单调性偏好、关键点偏好、简洁性偏好和延迟偏好。通过利用前四个偏好,我们构建了人类偏好提示,以高效地引导GPT-4/4o生成SiMT任务的偏好数据。在偏好优化阶段,SimulPL将延迟偏好整合到优化目标中,并使SiMT模型能够改进读写策略,从而更有效地与人类偏好相一致。实验结果表明,在Zh→En、De→En和En→Zh SiMT任务的所有延迟级别上,SimulPL与人类偏好的一致程度更好。我们的数据和代码将可从https://github.com/EurekaForNLP/SimulPL获取。