摘要
大型语言模型 (LLM) 在众多任务中取得了最先进的性能。然而,这些进步主要惠及英语和中文等“一等”语言,而许多其他语言则代表性不足。这种不平衡,虽然限制了更广泛的应用,但也产生了语言之间的自然偏好排序,为以自我改进的方式增强 LLM 的多语言能力提供了机会。因此,我们提出了“语言不平衡驱动的奖励”,其中利用 LLM 内主导语言和非主导语言之间的固有失衡作为奖励信号。迭代 DPO 训练表明,这种方法不仅增强了 LLM 在非主导语言中的性能,而且还提高了主导语言的能力,从而产生了迭代奖励信号。对 Meta-Llama-3-8B-Instruct 进行两次迭代的微调,在指令遵循和算术推理任务中持续提高了多语言性能,在 X-AlpacaEval 排行榜上的平均胜率提高了 7.46%,在 MGSM 基准测试中的准确率提高了 13.9%。这项工作作为初步探索,为 LLM 的多语言自我改进铺平了道路。