LLM2D

摘要

大型语言模型 (LLM) 在众多任务中取得了最先进的性能。然而，这些进步主要惠及英语和中文等“一等”语言，而许多其他语言则代表性不足。这种不平衡，虽然限制了更广泛的应用，但也产生了语言之间的自然偏好排序，为以自我改进的方式增强 LLM 的多语言能力提供了机会。因此，我们提出了“语言不平衡驱动的奖励”，其中利用 LLM 内主导语言和非主导语言之间的固有失衡作为奖励信号。迭代 DPO 训练表明，这种方法不仅增强了 LLM 在非主导语言中的性能，而且还提高了主导语言的能力，从而产生了迭代奖励信号。对 Meta-Llama-3-8B-Instruct 进行两次迭代的微调，在指令遵循和算术推理任务中持续提高了多语言性能，在 X-AlpacaEval 排行榜上的平均胜率提高了 7.46%，在 MGSM 基准测试中的准确率提高了 13.9%。这项工作作为初步探索，为 LLM 的多语言自我改进铺平了道路。