LLM2D

摘要

arXiv:2412.20127v2 通知类型: replace-cross 摘要: 近年来，大型语言模型（LLMs）的进步催生了LLM作为裁判的范式，展示了其在提供类人类判断方面的潜力。然而，在机器翻译（MT）评估领域，当前的LLM作为裁判的方法仍落后于学习到的自动评估指标。在本文中，我们提出了多维多智能体辩论（M-MAD），这是一种基于LLM的多智能体框架，用于高级LLM作为裁判的MT评估。我们的研究结果表明，M-MAD通过以下方式实现了显著的进步：(1) 将启发式的MQM标准解耦为不同的评估维度，以实现精细的评估；(2) 使用多智能体辩论来利用LLM的协作推理能力；(3) 将特定维度的结果综合成最终的评估判断，以确保稳健且可靠的成果。全面的实验表明，M-MAD不仅超越了所有现有的LLM作为裁判的方法，而且在使用像GPT-4o mini这样的次优模型时，甚至能与最新的基于参考的自动评估指标竞争。详细的研究和分析突显了我们框架设计的优越性，为LLM作为裁判范式提供了新的视角。我们的代码和数据可在https://github.com/SU-JIAYUAN/M-MAD公开获取。