LLM2D

摘要

arXiv:2503.22973v1 交叉类型：cross 摘要：跨语言开放式生成，即生成与用户查询语言不同的所需语言的回答，是一个重要但研究不足的问题。我们引入了XL-AlpacaEval，一个用于评估大型语言模型（LLMs）跨语言生成能力的新基准，并提出了一种高质量的合成数据生成方法XL-Instruct。仅使用8K XL-Instruct生成的指令微调显著提高了模型性能，将对抗GPT-4o-Mini的胜率从7.4%提高到21.5%，并在多个细化的质量指标上有所改进。此外，使用XL-Instruct微调的模型在英语only和多语言生成任务上表现出强大的零样本迁移能力。考虑到其在整个领域的持续收益，我们强烈建议在未来多语言LLMs的后训练管道中采用XL-Instruct。为了促进进一步的研究，我们将公开并免费发布XL-Instruct和XL-AlpacaEval数据集，这两个数据集是文献中为数不多的现有跨语言资源之一。