LLM2D

摘要

arXiv:2504.10187v1 交叉通知类型摘要：近期，深度推理大语言模型（例如OpenAI的o1/o3和DeepSeek-R1）在各种复杂任务中展现出了令人鼓舞的性能。自由翻译是多语言世界中一个重要且有趣的任务，需要超出逐词翻译并考虑到文化差异。这一任务在深度推理大语言模型中仍然未被充分探索。本文介绍了DeepTrans，这是一种通过强化学习学习自由翻译的深度推理翻译模型。具体而言，我们精心构建了一个奖励模型，该模型在翻译结果和思维过程上都设有预定义的评分标准。给定源句子，奖励模型在强化学习过程中教会深度翻译模型如何进行思考和自由翻译。这样，训练DeepTrans不需要任何标注的翻译，避免了大量人力或资源密集型的数据合成。实验结果表明了DeepTrans的有效性。以Qwen2.5-7B作为骨干模型，DeepTrans在文献翻译中的性能提高了16.3%，并优于优秀的深度推理基线模型以及使用合成数据微调的基线模型。此外，我们在RL探索过程中总结了失败和有趣的研究发现。我们希望这项工作能够启发其他研究人员从事自由翻译的研究。