摘要
arXiv:2412.17498v3 宣布类型: replace-cross
摘要:近期,O1 类似模型已经涌现出来,展示了在数学和编码任务等推理任务中长链条思维(长 CoT)的有效性。在本文中,我们引入了 DRT,这是一种尝试将长 CoT 成功应用于神经机器翻译(MT)的方法。具体而言,针对可能包含明喻和暗喻的文学书籍,由于文化差异,将这些文本翻译为目标语言在实践中非常困难。在这种情况下,字面翻译通常无法有效地传达出原意。即使是专业的人类翻译人员,在翻译过程中也需要花费相当大的精力去保留语义的一致性。为了模拟语言模型在 MT 中的长思考能力,我们首先从现有的文学书籍中挖掘包含明喻或暗喻的句子,然后开发一个多代理框架,通过长思考来翻译这些句子。在多代理框架中,一个翻译者在顾问提供的建议下,迭代地翻译源句子。为了确保长思考的有效性,也在每一轮中使用了一个评估器来量化翻译质量。通过这种方式,我们收集了数十万条长思考的 MT 数据,用于训练我们的 DRT 模型。以 Qwen2.5 和 LLama-3.1 作为基础模型,DRT 模型可以从机器翻译过程中学习思维过程,并在性能上超越了原本的 LLMs 以及仅在成对句子上进行微调但没有长思考的 LLMs,这表明了其有效性。