LLM2D

摘要

arXiv:2412.17498v3 宣布类型: replace-cross 摘要：近期，O1 类似模型已经涌现出来，展示了在数学和编码任务等推理任务中长链条思维（长 CoT）的有效性。在本文中，我们引入了 DRT，这是一种尝试将长 CoT 成功应用于神经机器翻译（MT）的方法。具体而言，针对可能包含明喻和暗喻的文学书籍，由于文化差异，将这些文本翻译为目标语言在实践中非常困难。在这种情况下，字面翻译通常无法有效地传达出原意。即使是专业的人类翻译人员，在翻译过程中也需要花费相当大的精力去保留语义的一致性。为了模拟语言模型在 MT 中的长思考能力，我们首先从现有的文学书籍中挖掘包含明喻或暗喻的句子，然后开发一个多代理框架，通过长思考来翻译这些句子。在多代理框架中，一个翻译者在顾问提供的建议下，迭代地翻译源句子。为了确保长思考的有效性，也在每一轮中使用了一个评估器来量化翻译质量。通过这种方式，我们收集了数十万条长思考的 MT 数据，用于训练我们的 DRT 模型。以 Qwen2.5 和 LLama-3.1 作为基础模型，DRT 模型可以从机器翻译过程中学习思维过程，并在性能上超越了原本的 LLMs 以及仅在成对句子上进行微调但没有长思考的 LLMs，这表明了其有效性。