LLM2D
跨语言推理通过测试时缩放
Crosslingual Reasoning through Test-Time Scaling
作者: Zheng-Xin Yong, M. Farid Adilazuarda, Jonibek Mansurov, Ruochen Zhang, Niklas Muennighoff, Carsten Eickhoff, Genta Indra Winata, Julia Kreutzer, Stephen H. Bach, Alham Fikri Aji
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2505.05408v1

摘要

arXiv:2505.05408v1 宣布类型: cross 摘要:大型语言模型的推理能力主要是在英语上进行研究的,即使预训练模型是多语言的。在本文中,我们研究了以英语为中心的带有长链推理(CoTs)的推理微调能多大程度上跨语言泛化。首先,我们发现,扩大以英语为中心的推理语言模型(RLMs)的推理计算规模,可以显著提高包括低资源语言在内的多种语言的数学推理能力,使其在某些情况下超越规模是其两倍的模型。其次,我们揭示了尽管以英语为中心的RLMs的CoTs自然是以英语为主的,但它们在推理关于报价的非英语输入时始终遵循引文和思考的模式。第三,我们发现了一种有效的方法来控制长CoT推理中的语言,并观察到模型在高资源语言中推理得更好且更高效。最后,我们发现从STEM到文化常识知识的跨域推理泛化表现较差,即使是对于英语的也是如此。总体而言,我们展示了英语推理跨语言泛化的潜力,研究了其机制,并概述了其局限性。我们得出结论,实践者应让以英语为中心的RLMs在高资源语言中进行推理,但需要进一步的工作来提高低资源语言和跨域情景下的推理能力。