摘要
arXiv:2504.11829v2 公告类型: replace-cross
摘要:多语言大规模语言模型(mLLMs)的生成能力和语言覆盖范围正在迅速发展。然而,对于mLLMs生成能力的评估实践仍然缺乏全面性、科学严谨性和研究实验室之间的持续采用,这损害了它们在有意义地指导mLLM开发方面的潜力。我们借鉴了机器翻译(MT)评估领域的经验,这是一个曾经面临类似挑战,并在数十年间发展出了透明报告标准和可靠的多语言生成模型评估方法的领域。通过针对生成评估流程中的关键阶段进行目标导向的实验,我们展示了如何从MT评估实践中更深入地理解模型质量差异。此外,我们确定了用于 robust meta-evaluation 的 mLLMs 的关键组成部分,确保评估方法本身也得到了严格的评估。我们将这些洞见提炼成一份可操作的建议清单,为 mLLM 研究和开发提供指导。