LLM2D
西班牙语和巴斯克语的总结评价指标:自动评分和大语言模型评分与人类评分相关吗?
Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans?
作者: Jeremy Barnes, Naiara Perez, Alba Bonet-Jover, Bego\~na Altuna
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2503.17039v2

摘要

arXiv:2503.17039v2 通告类型: replace-cross 摘要:关于评估指标和LLM-as-a-Judge模型在自动文本摘要中的研究主要集中在英语上,限制了我们对其在其他语言中的有效性理解。通过我们新的数据集BASSE(巴斯克语和西班牙语摘要评估),我们通过收集人工对2,040个抽象总结的人类评判来解决这一问题,这些总结或是手工生成的,或是由五种具有不同提示的LLM生成的。对于每个摘要,注释者根据5点李克特量表对五个标准进行了评估:连贯性、一致性、流畅性、相关性和5W1H。我们使用这些数据重新评估用于评估摘要的传统自动指标,以及在英语任务中表现出色的几种LLM-as-a-Judge模型。我们的结果表明,当前的专有法官LLM与人类评判的相关性最高,其次是特定标准的自动指标,而开源的法官LLM表现较差。我们公开发布了BASSE和我们的代码,以及包含22,525篇新闻文章及其副标题的第一个大规模巴斯克语摘要数据集。