LLM2D
多维度多-agent 辩论评价高级机器翻译
M-MAD: Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation
作者: Jiayuan Su, Zhaopeng Feng, Jiamei Zheng, Jiahan Ren, Yan Zhang, Jian Wu, Hongwei Wang, Zuozhu Liu
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2412.20127v2

摘要

arXiv:2412.20127v2 通知类型: replace-cross 摘要: 近年来,大型语言模型(LLMs)的进步催生了LLM作为裁判的范式,展示了其在提供类人类判断方面的潜力。然而,在机器翻译(MT)评估领域,当前的LLM作为裁判的方法仍落后于学习到的自动评估指标。在本文中,我们提出了多维多智能体辩论(M-MAD),这是一种基于LLM的多智能体框架,用于高级LLM作为裁判的MT评估。我们的研究结果表明,M-MAD通过以下方式实现了显著的进步:(1) 将启发式的MQM标准解耦为不同的评估维度,以实现精细的评估;(2) 使用多智能体辩论来利用LLM的协作推理能力;(3) 将特定维度的结果综合成最终的评估判断,以确保稳健且可靠的成果。全面的实验表明,M-MAD不仅超越了所有现有的LLM作为裁判的方法,而且在使用像GPT-4o mini这样的次优模型时,甚至能与最新的基于参考的自动评估指标竞争。详细的研究和分析突显了我们框架设计的优越性,为LLM作为裁判范式提供了新的视角。我们的代码和数据可在https://github.com/SU-JIAYUAN/M-MAD公开获取。