LLM2D
基于错误的人工评估深入评价大规模语言模型在句子简化中的表现
An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment
作者: Xuanxin Wu, Yuki Arase
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2403.04963v2

摘要

arXiv:2403.04963v2 宣告类型: 替换-交叉 摘要:近期的研究使用了自动指标和人工评估来评估大规模语言模型(LLM)的简化能力。然而,现有评估方法是否适用于LLM仍存在疑问。首先,当前自动指标对LLM简化能力评估的适用性仍然不确定。其次,现有的句子简化人工评估方法往往存在两个极端:要么过于表面化,未能提供对模型性能的清晰理解,要么过于详细,使标注过程复杂且容易出现不一致性,从而影响评估的可靠性。为解决这些问题,本研究深入探讨了LLM的性能,同时确保评估的可靠性。我们设计了一种基于错误的人工标注框架来评估LLM的简化能力。我们选择了包括GPT-4、Qwen2.5-72B和Llama-3.2-3B在内的闭源和开源LLM。我们认为,这些模型代表了大规模、中规模和小规模LLM的典型选择。结果显示,GPT-4一般生成的错误简化输出比当前最佳方法要少。然而,LLM也存在局限性,如GPT-4在词形改写方面的问题所示。结果显示,LLM一般生成的错误简化输出比之前的最佳方法要少。然而,LLM也存在局限性,如GPT-4和Qwen2.5-72B在词形改写方面的问题所示。此外,我们使用我们的人工标注对广泛使用的自动指标进行了元评估。我们发现,这些指标缺乏足够的敏感性,无法评估总体高质量的简化,尤其是高性能LLM生成的简化。