LLM2D

摘要

arXiv:2403.04963v2 宣告类型: 替换-交叉摘要：近期的研究使用了自动指标和人工评估来评估大规模语言模型（LLM）的简化能力。然而，现有评估方法是否适用于LLM仍存在疑问。首先，当前自动指标对LLM简化能力评估的适用性仍然不确定。其次，现有的句子简化人工评估方法往往存在两个极端：要么过于表面化，未能提供对模型性能的清晰理解，要么过于详细，使标注过程复杂且容易出现不一致性，从而影响评估的可靠性。为解决这些问题，本研究深入探讨了LLM的性能，同时确保评估的可靠性。我们设计了一种基于错误的人工标注框架来评估LLM的简化能力。我们选择了包括GPT-4、Qwen2.5-72B和Llama-3.2-3B在内的闭源和开源LLM。我们认为，这些模型代表了大规模、中规模和小规模LLM的典型选择。结果显示，GPT-4一般生成的错误简化输出比当前最佳方法要少。然而，LLM也存在局限性，如GPT-4在词形改写方面的问题所示。结果显示，LLM一般生成的错误简化输出比之前的最佳方法要少。然而，LLM也存在局限性，如GPT-4和Qwen2.5-72B在词形改写方面的问题所示。此外，我们使用我们的人工标注对广泛使用的自动指标进行了元评估。我们发现，这些指标缺乏足够的敏感性，无法评估总体高质量的简化，尤其是高性能LLM生成的简化。