LLM2D

摘要

arXiv:2412.20127v3 Announce Type: replace-cross 摘要：近期大型语言模型（LLMs）的进展催生了LLM-as-a-judge范式，展示了其在提供类人类判决方面的潜力。然而，在机器翻译（MT）评估领域，现有的LLM-as-a-judge方法未能超越已学习的自动指标。在本文中，我们提出了一种基于LLM的多代理框架Multidimensional Multi-Agent Debate（M-MAD），用于高级LLM-as-a-judge MT评估。我们的研究结果表明，M-MAD通过以下方式实现了显著的进展：（1）将启发式MQM标准分解为独立的评估维度，以进行精细的评估；（2）利用多代理辩论充分利用LLM的协作推理能力；（3）综合各维度的结果为最终评估判断，确保稳健和可靠的产出。全面的实验表明，M-MAD不仅超越了所有现有的LLM-as-a-judge方法，而且在动力系统性能不佳如GPT-4o mini的模型下，也与基于参考的最新自动指标竞争。详细的消融和分析突显了我们框架设计的优势，为LLM-as-a-judge范式提供了新的视角。我们的代码和数据可在https://github.com/SU-JIAYUAN/M-MAD上公开获取。