LLM2D

摘要

arXiv:2504.10160v1 Cross 类型摘要：大规模强化学习（RL）方法在提高大型语言模型（LLMs）的推理能力方面已经 proven 高效，特别是在具有可验证解决方案的任务中，如数学和编程。然而，将这一理念应用于机器翻译（MT），其中输出的格式是灵活的，并且很难通过显式的规则自动评估，这一领域仍然缺乏探索。在本文中，我们介绍了 MT-R1-Zero，这是第一个无需监督微调或冷启动的 R1-Zero RL 框架在 MT 方面的开源适应。我们提出了一种规则度量混合奖励机制，通过新兴的推理来引导 LLMs 提高翻译质量。在 WMT 24 英语-汉语基准测试上，我们的 MT-R1-Zero-3B-Mix 达到了竞争性的性能，平均优于 TowerInstruct-7B-v0.2 1.26 分。同时，我们的 MT-R1-Zero-7B-Mix 在所有度量标准上的平均得分为 62.25，与先进的专有模型（如 GPT-4o 和 Claude-3.5-Sonnet）持平，而 MT-R1-Zero-7B-Sem 变体在语义度量上达到了最先进的分数。此外，我们的工作在离分布机器翻译任务上展示了强大的泛化能力，牢固支持多语言和低资源设置。通过对不同初始化和奖励机制下模型行为的广泛分析，我们提供了有关奖励设计、LLM 可适应性、训练动力学和 R1-Zero 框架内新兴推理模式在机器翻译中的关键作用的先驱性见解。我们的代码可在 https://github.com/fzp0424/MT-R1-Zero 获取。