摘要
arXiv:2412.12499v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)展示了令人印象深刻的多语言推理能力,这得益于广泛的多语言预训练语料库和指令微调数据。然而,由于预训练语料库中的语言不平衡,高资源和低资源语言推理任务之间存在性能差距,在现有推理基准缺乏低资源语言覆盖且存在评价偏差的情况下,这一差距有所加剧。为了解决这一问题,我们提出了LinguaLIFT,这是一种促进低资源语言推理的两阶段指令调优框架。LinguaLIFT采用一种语言对齐层,以代码切换的方式捕捉多语言对齐,而无需多语言指令或平行数据,从而通过仅使用英语指令微调数据将跨语言推理能力转移给低资源语言。为了全面评估多语言推理能力,我们引入了多语言数学世界问题(MMWP)基准,该基准涵盖了21种低资源、17种中资源和10种高资源语言。实验结果表明,LinguaLIFT在MMWP和四个广泛使用的基准上优于几种竞争性基线。