摘要
arXiv:2502.10852v1 公告类型:交叉
摘要:尽管多语言语言模型如XLM-R在自然语言处理(NLP)中推进了多语言能力,但它们在极端低资源语言中的表现仍然不佳。这一问题进一步加剧了现代大模型如LLaMA和Qwen只支持比XLM-R更少语言的事实,使许多语言在世界上缺乏用于文本生成的模型。为应对这一挑战,我们提出了一种新的框架,用于将多语言编码器适应于极端低资源语言的文本生成。通过在编码器和解码器之间重用权重,我们的框架允许模型利用编码器学习到的语义空间,从而在低资源语言中实现高效的训练和有效的泛化。将此框架应用于四种中国少数民族语言后,我们推出了XLM-SWCM,并在各种下游任务中展示了其优于更大模型的性能。