摘要
arXiv:2504.16677v1 基础类型: 交叉
摘要:为了使大规模语言模型在全球范围内发挥作用,它们会在多语言数据上进行微调以遵循指令。尽管这种后训练过程无处不在,但尚不清楚能够实现跨语言转移的动力机制是什么。这项研究探讨了在现实的后训练设置中的跨语言转移(CLT)动力机制。我们研究了两种最多包含350亿参数的模型系列,这些模型在精心控制的多语言数据混合体上进行了训练,并在总结、指令遵循和数学推理三种不同复杂度的生成任务上进行了单一任务和多任务指令调优设置的研究。总体而言,我们发现跨语言转移和多语言性能的动力机制不能由孤立的变量来解释,这取决于后训练设置的组合。最后,我们确定了实践中实现有效跨语言转移的条件。