摘要
大型语言模型(LLM)生成的会议摘要质量难以自动衡量。现有的指标,如ROUGE和BERTScore,与人工判断的相关性较低,且无法捕捉细微的错误。最近的研究表明,可以使用大型语言模型(LLM),其优势在于更好的上下文理解能力,并且无需大量人工偏好判断数据即可调整错误定义。然而,当前基于LLM的评估器存在掩盖错误的风险,只能作为一种弱替代方案,人工评估仍然是黄金标准,尽管成本高昂且难以跨研究进行比较。在这项工作中,我们提出了MESA,一个基于LLM的框架,它采用三步评估单个错误类型、多智能体讨论以改进决策以及基于反馈的自我训练来改进错误定义理解并与人工判断保持一致。我们表明,MESA的组件能够实现彻底的错误检测、一致的评分以及对自定义错误指南的适应性。使用GPT-4o作为其骨干,MESA在错误检测方面与人工判断的点双列相关性达到中等至高水平,在反映错误对摘要质量的影响方面,斯皮尔曼和肯德尔相关性达到中等水平,平均比以前的方法高0.25。该框架能够适应自定义错误指南的灵活性使其适用于各种只有少量人工标注数据的任务。