LLM2D

摘要

arXiv:2502.00634v1 公告类型: cross 摘要: 同步机器翻译 (SiMT) 在接收流式源输入的同时生成翻译。这要求 SiMT 模型学习一个读写策略，决定何时进行翻译，何时等待更多的源输入。许多语言研究指出，在 SiMT 场景中的观众有明显的偏好，例如准确的翻译、简洁的语法以及没有不必要的延迟。对这些人类偏好的契合是提高 SiMT 模型性能的关键。然而，这个问题仍然没有被探索。此外，对 SiMT 任务的偏好优化也是一个挑战。现有方法仅专注于优化生成的响应，忽略了与延迟相关的偏好以及偏好优化阶段的读写策略优化。为了解决这些挑战，我们提出了 Simultaneous Preference Learning (SimulPL)，这是一种专门为 SiMT 任务设计的偏好学习框架。在 SimulPL 框架中，我们将 SiMT 人类偏好分为五个方面：**翻译质量偏好**、**单调性偏好**、**关键点偏好**、**简洁性偏好** 和 **延迟偏好**。通过利用前四类偏好，我们构建了人类偏好提示，以高效地引导 GPT-4/4o 生成用于 SiMT 任务的偏好数据。在偏好优化阶段，SimulPL 将 **延迟偏好** 整合到优化目标中，使 SiMT 模型能够改善读写策略，从而更有效地与人类偏好对齐。实验结果表明，SimulPL 在 Zh$\rightarrow$En、De$\rightarrow$En 和 En$\rightarrow$Zh SiMT 任务的所有延迟水平上都更好地与人类偏好对齐。我们的数据和代码将在 https://github.com/EurekaForNLP/SimulPL repository中提供。