LLM2D
SimulPL:同时机器翻译中的人类偏好对齐
SimulPL: Aligning Human Preferences in Simultaneous Machine Translation
作者: Donglei Yu, Yang Zhao, Jie Zhu, Yangyifan Xu, Yu Zhou, Chengqing Zong
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00634v1

摘要

arXiv:2502.00634v1 公告类型: cross 摘要: 同步机器翻译 (SiMT) 在接收流式源输入的同时生成翻译。这要求 SiMT 模型学习一个读写策略,决定何时进行翻译,何时等待更多的源输入。许多语言研究指出,在 SiMT 场景中的观众有明显的偏好,例如准确的翻译、简洁的语法以及没有不必要的延迟。对这些人类偏好的契合是提高 SiMT 模型性能的关键。然而,这个问题仍然没有被探索。此外,对 SiMT 任务的偏好优化也是一个挑战。现有方法仅专注于优化生成的响应,忽略了与延迟相关的偏好以及偏好优化阶段的读写策略优化。为了解决这些挑战,我们提出了 Simultaneous Preference Learning (SimulPL),这是一种专门为 SiMT 任务设计的偏好学习框架。在 SimulPL 框架中,我们将 SiMT 人类偏好分为五个方面:**翻译质量偏好**、**单调性偏好**、**关键点偏好**、**简洁性偏好** 和 **延迟偏好**。通过利用前四类偏好,我们构建了人类偏好提示,以高效地引导 GPT-4/4o 生成用于 SiMT 任务的偏好数据。在偏好优化阶段,SimulPL 将 **延迟偏好** 整合到优化目标中,使 SiMT 模型能够改善读写策略,从而更有效地与人类偏好对齐。实验结果表明,SimulPL 在 Zh$\rightarrow$En、De$\rightarrow$En 和 En$\rightarrow$Zh SiMT 任务的所有延迟水平上都更好地与人类偏好对齐。我们的数据和代码将在 https://github.com/EurekaForNLP/SimulPL repository中提供。