摘要
arXiv:2412.20127v3 Announce Type: replace-cross
摘要:近期大型语言模型(LLMs)的进展催生了LLM-as-a-judge范式,展示了其在提供类人类判决方面的潜力。然而,在机器翻译(MT)评估领域,现有的LLM-as-a-judge方法未能超越已学习的自动指标。在本文中,我们提出了一种基于LLM的多代理框架Multidimensional Multi-Agent Debate(M-MAD),用于高级LLM-as-a-judge MT评估。我们的研究结果表明,M-MAD通过以下方式实现了显著的进展:(1)将启发式MQM标准分解为独立的评估维度,以进行精细的评估;(2)利用多代理辩论充分利用LLM的协作推理能力;(3)综合各维度的结果为最终评估判断,确保稳健和可靠的产出。全面的实验表明,M-MAD不仅超越了所有现有的LLM-as-a-judge方法,而且在动力系统性能不佳如GPT-4o mini的模型下,也与基于参考的最新自动指标竞争。详细的消融和分析突显了我们框架设计的优势,为LLM-as-a-judge范式提供了新的视角。我们的代码和数据可在https://github.com/SU-JIAYUAN/M-MAD上公开获取。