LLM2D

摘要

arXiv:2504.07174v1 评价类型: 横跨研究摘要：大型语言模型（LLMs）在自动评估自然语言生成方面展现出了巨大的潜力。以往的LLM作为评判者框架存在两大不足：它们要么在不咨询人类输入的情况下采用零样本设置，从而导致对齐程度较低，要么通过标注数据微调LLM，但需要大量的样本数量。此外，以往的方法往往很少为自动评估提供合理的解释。在本文中，我们提出了HypoEval，一种假设导向的评估框架。该框架首先使用小规模的人类评估数据集来生成更详细的评判标准，然后结合LLM在每个分解维度上分配的分数，采用类似于检查表的方法来获取综合得分。仅使用30个人类评估，HypoEval在人类排名（斯皮尔曼相关性）和人类评分（皮尔逊相关性）方面都达到了最先进的性能，在平均情况下，HypoEval的性能比G-Eval高出11.86%，比至少用了三倍人类评估量微调的Llama-3.1-8B-Instruct高出11.95%。此外，我们还进行了系统性的研究来评估HypoEval的稳健性，突显了其作为可靠且可解释的自动评估框架的有效性。