摘要
arXiv:2504.10160v1 Cross 类型
摘要:大规模强化学习(RL)方法在提高大型语言模型(LLMs)的推理能力方面已经 proven 高效,特别是在具有可验证解决方案的任务中,如数学和编程。然而,将这一理念应用于机器翻译(MT),其中输出的格式是灵活的,并且很难通过显式的规则自动评估,这一领域仍然缺乏探索。在本文中,我们介绍了 MT-R1-Zero,这是第一个无需监督微调或冷启动的 R1-Zero RL 框架在 MT 方面的开源适应。我们提出了一种规则度量混合奖励机制,通过新兴的推理来引导 LLMs 提高翻译质量。在 WMT 24 英语-汉语基准测试上,我们的 MT-R1-Zero-3B-Mix 达到了竞争性的性能,平均优于 TowerInstruct-7B-v0.2 1.26 分。同时,我们的 MT-R1-Zero-7B-Mix 在所有度量标准上的平均得分为 62.25,与先进的专有模型(如 GPT-4o 和 Claude-3.5-Sonnet)持平,而 MT-R1-Zero-7B-Sem 变体在语义度量上达到了最先进的分数。此外,我们的工作在离分布机器翻译任务上展示了强大的泛化能力,牢固支持多语言和低资源设置。通过对不同初始化和奖励机制下模型行为的广泛分析,我们提供了有关奖励设计、LLM 可适应性、训练动力学和 R1-Zero 框架内新兴推理模式在机器翻译中的关键作用的先驱性见解。我们的代码可在 https://github.com/fzp0424/MT-R1-Zero 获取。