LLM2D

摘要

arXiv:2504.04953v1 宣告类型: cross 摘要: 使用语言模型自动评估长文本（LLM-as-a-judge）的使用变得越来越常见，但大多数LLM法官仅针对英语进行了优化，目前文献中有关增强其多语言评估能力的策略研究仍然很少。这导致非英语语言的自动评估方法质量参差不齐，最终阻碍了具有良好多语言能力模型的发展。为弥合这一差距，我们介绍了M-Prometheus，这是一个参数范围从3B到14B的开放权重LLM法官套件，可以提供直接评估和成对比较反馈以评估多语言输出。M-Prometheus模型在涵盖超过20种语言的多语言奖励基准测试中优于最先进的开放源代码LLM法官，在涵盖4种语言对的文学机器翻译（MT）评估中也同样表现出色。此外，M-Prometheus模型可以在解码时显著改善所有3种测试语言生成的输出，展示了其在开发更好多语言模型方面的适用性。最后，通过广泛的删减实验，我们确定了获得有效多语言法官的关键因素，包括选择骨干模型以及使用原生多语言反馈数据而不是翻译数据进行训练。我们发布了我们的模型、训练数据集和代码。