摘要
arXiv:2504.11829v1 宣告类型: cross
摘要:多语言大型语言模型(mLLMs)的生成能力和语言覆盖面正在迅速进步。然而,对于mLLMs生成能力的评估实践仍然缺乏全面性、科学严谨性和研究实验室间的一致采用,这削弱了它们在有意义地指导mLLM开发方面的潜力。我们借鉴机器翻译(MT)评估领域的情况,这是一个曾经面临类似挑战并经过数十年发展建立了透明报告标准和可靠的多语言生成模型评估方法的领域。通过针对生成评估管道各关键阶段的定向实验,我们展示了从MT评估实践中可以如何加深对模型质量差异的理解。此外,我们确定了多语言大型语言模型(mLLMs)稳健元评估的关键组成部分,确保评估方法本身也被严格评估。我们将这些洞察力提炼成一份针对mLLM研究与开发的可操作建议清单。