LLM2D
HypoEval:基于假设的自然语言生成评估
HypoEval: Hypothesis-Guided Evaluation for Natural Language Generation
作者: Mingxuan Li, Hanchen Li, Chenhao Tan
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2504.07174v1

摘要

arXiv:2504.07174v1 评价类型: 横跨研究 摘要:大型语言模型(LLMs)在自动评估自然语言生成方面展现出了巨大的潜力。以往的LLM作为评判者框架存在两大不足:它们要么在不咨询人类输入的情况下采用零样本设置,从而导致对齐程度较低,要么通过标注数据微调LLM,但需要大量的样本数量。此外,以往的方法往往很少为自动评估提供合理的解释。在本文中,我们提出了HypoEval,一种假设导向的评估框架。该框架首先使用小规模的人类评估数据集来生成更详细的评判标准,然后结合LLM在每个分解维度上分配的分数,采用类似于检查表的方法来获取综合得分。仅使用30个人类评估,HypoEval在人类排名(斯皮尔曼相关性)和人类评分(皮尔逊相关性)方面都达到了最先进的性能,在平均情况下,HypoEval的性能比G-Eval高出11.86%,比至少用了三倍人类评估量微调的Llama-3.1-8B-Instruct高出11.95%。此外,我们还进行了系统性的研究来评估HypoEval的稳健性,突显了其作为可靠且可解释的自动评估框架的有效性。