LLM2D

摘要

arXiv:2505.05408v1 宣布类型: cross 摘要：大型语言模型的推理能力主要是在英语上进行研究的，即使预训练模型是多语言的。在本文中，我们研究了以英语为中心的带有长链推理（CoTs）的推理微调能多大程度上跨语言泛化。首先，我们发现，扩大以英语为中心的推理语言模型（RLMs）的推理计算规模，可以显著提高包括低资源语言在内的多种语言的数学推理能力，使其在某些情况下超越规模是其两倍的模型。其次，我们揭示了尽管以英语为中心的RLMs的CoTs自然是以英语为主的，但它们在推理关于报价的非英语输入时始终遵循引文和思考的模式。第三，我们发现了一种有效的方法来控制长CoT推理中的语言，并观察到模型在高资源语言中推理得更好且更高效。最后，我们发现从STEM到文化常识知识的跨域推理泛化表现较差，即使是对于英语的也是如此。总体而言，我们展示了英语推理跨语言泛化的潜力，研究了其机制，并概述了其局限性。我们得出结论，实践者应让以英语为中心的RLMs在高资源语言中进行推理，但需要进一步的工作来提高低资源语言和跨域情景下的推理能力。