LLM2D
XL-Instruct:跨语言开放生成的合成数据
XL-Instruct: Synthetic Data for Cross-Lingual Open-Ended Generation
作者: Vivek Iyer, Ricardo Rei, Pinzhen Chen, Alexandra Birch
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.22973v1

摘要

arXiv:2503.22973v1 交叉类型:cross 摘要:跨语言开放式生成,即生成与用户查询语言不同的所需语言的回答,是一个重要但研究不足的问题。我们引入了XL-AlpacaEval,一个用于评估大型语言模型(LLMs)跨语言生成能力的新基准,并提出了一种高质量的合成数据生成方法XL-Instruct。仅使用8K XL-Instruct生成的指令微调显著提高了模型性能,将对抗GPT-4o-Mini的胜率从7.4%提高到21.5%,并在多个细化的质量指标上有所改进。此外,使用XL-Instruct微调的模型在英语only和多语言生成任务上表现出强大的零样本迁移能力。考虑到其在整个领域的持续收益,我们强烈建议在未来多语言LLMs的后训练管道中采用XL-Instruct。为了促进进一步的研究,我们将公开并免费发布XL-Instruct和XL-AlpacaEval数据集,这两个数据集是文献中为数不多的现有跨语言资源之一。