摘要
arXiv:2503.22973v1 交叉类型:cross
摘要:跨语言开放式生成,即生成与用户查询语言不同的所需语言的回答,是一个重要但研究不足的问题。我们引入了XL-AlpacaEval,一个用于评估大型语言模型(LLMs)跨语言生成能力的新基准,并提出了一种高质量的合成数据生成方法XL-Instruct。仅使用8K XL-Instruct生成的指令微调显著提高了模型性能,将对抗GPT-4o-Mini的胜率从7.4%提高到21.5%,并在多个细化的质量指标上有所改进。此外,使用XL-Instruct微调的模型在英语only和多语言生成任务上表现出强大的零样本迁移能力。考虑到其在整个领域的持续收益,我们强烈建议在未来多语言LLMs的后训练管道中采用XL-Instruct。为了促进进一步的研究,我们将公开并免费发布XL-Instruct和XL-AlpacaEval数据集,这两个数据集是文献中为数不多的现有跨语言资源之一。