摘要
arXiv:2502.14830v1 跨语言类型:交叉
摘要:尽管通过微调可以在特定任务中展示出显著的能力,但将这些优势扩展到多种语言对于广泛的可访问性至关重要。然而,由于大型语言模型在不同语言上的表现差异以及许多语言缺乏微调数据,有效的跨语言迁移受到了阻碍。通过对超过1,000种语言对的大型语言模型内部表示的分析,我们发现中间层表现出最强的跨语言对齐潜力。基于这一发现,我们提出了一种集成在特定任务训练中的中间层对齐目标。我们在槽填充、机器翻译和结构化文本生成任务上的实验显示了跨语言迁移的一致改进,特别是在低资源语言上的改进尤为明显。该方法对对齐语言的选择具有鲁棒性,并能在未见过的语言上泛化。此外,我们展示了单独训练的对齐模块可以与现有的特定任务模块合并,而不需进行全面的重新训练即可提高跨语言能力。我们的代码已在开源(https://github.com/dannigt/mid-align)上公开。