LLM2D
多智能体LLM裁判:设计自动化个性化LLM裁判以评估自然语言生成应用
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications
作者: Hongliu Cao, Ilias Driouich, Robin Singh, Eoin Thomas
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.02867v1

摘要

arXiv:2504.02867v1 类型: 内容交叉 摘要:大型语言模型(LLMs)已在多种领域展示了令人印象深刻的性能,但它们仍然面临诸如领域特定知识不足、偏见和幻觉等挑战。这突显了需要具备稳健评估方法的需求,以便准确评估基于LLM的应用程序。传统的评估方法依赖于词重叠或文本嵌入,对于捕捉用于评估动态、开放式文本生成所需要的细微语义信息来说是不够的。最近的研究探讨了利用LLMs模拟人类推理和决策过程来实现评估,这被称为LLM-as-a-judge框架。然而,这些现有的框架有两个重要限制。首先,它们缺乏适应不同文本风格的灵活性,包括各种答案和真实世界的风格,从而降低了其泛化性能。其次,这些框架产生的评估分数常常偏离且难以解释,与人类判断的相关性较低。为了应对这些挑战,我们提出了一种新颖的动态多代理系统,该系统能够自动为各种自然语言生成应用设计个性化的LLM裁判。该系统迭代地优化评估提示,并在下游任务的适应需求和与人类感知的对齐之间寻求平衡。我们的实验结果表明,所提出的多代理LLM裁判框架不仅在评估准确性上比现有方法更高,而且还产生了更符合人类感知的评估分数。