LLM2D
大型语言模型的多语种指令微调:是优质数据还是糟糕的多语种评估?
Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?
作者: Pinzhen Chen, Simon Yu, Zhicheng Guo, Barry Haddow
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2406.12822v3

摘要

多语言大型语言模型的设计、宣称和预期都是为了满足各种语言的使用者。我们假设,由于过度依赖翻译,目前微调和评估这些模型的做法可能与这一目标并不完全一致,因为翻译无法涵盖语言特有的知识,反而会引入翻译缺陷。指令数据的性质是否会影响模型输出尚不清楚;反之,翻译后的测试集是否能捕捉到这些细微差别也是值得怀疑的。由于在两个阶段都使用翻译数据的做法往往是耦合的,因此这些缺陷可能被忽视了。本研究利用指令微调和评估阶段的受控本机或翻译数据来调查这些问题。我们发现,当模型性能较高时,本机或生成基准揭示了本机和翻译指令数据之间的显著差异,而其他类型的测试集则无法做到这一点。往返翻译和单程翻译之间的比较反映了语言本机资源知识的重要性。最后,我们证明了正则化有利于弥合结构化任务而非生成任务的差距。