LLM2D

摘要

arXiv:2504.02867v1 类型: 内容交叉摘要：大型语言模型（LLMs）已在多种领域展示了令人印象深刻的性能，但它们仍然面临诸如领域特定知识不足、偏见和幻觉等挑战。这突显了需要具备稳健评估方法的需求，以便准确评估基于LLM的应用程序。传统的评估方法依赖于词重叠或文本嵌入，对于捕捉用于评估动态、开放式文本生成所需要的细微语义信息来说是不够的。最近的研究探讨了利用LLMs模拟人类推理和决策过程来实现评估，这被称为LLM-as-a-judge框架。然而，这些现有的框架有两个重要限制。首先，它们缺乏适应不同文本风格的灵活性，包括各种答案和真实世界的风格，从而降低了其泛化性能。其次，这些框架产生的评估分数常常偏离且难以解释，与人类判断的相关性较低。为了应对这些挑战，我们提出了一种新颖的动态多代理系统，该系统能够自动为各种自然语言生成应用设计个性化的LLM裁判。该系统迭代地优化评估提示，并在下游任务的适应需求和与人类感知的对齐之间寻求平衡。我们的实验结果表明，所提出的多代理LLM裁判框架不仅在评估准确性上比现有方法更高，而且还产生了更符合人类感知的评估分数。