摘要
arXiv:2503.17039v2 通告类型: replace-cross
摘要:关于评估指标和LLM-as-a-Judge模型在自动文本摘要中的研究主要集中在英语上,限制了我们对其在其他语言中的有效性理解。通过我们新的数据集BASSE(巴斯克语和西班牙语摘要评估),我们通过收集人工对2,040个抽象总结的人类评判来解决这一问题,这些总结或是手工生成的,或是由五种具有不同提示的LLM生成的。对于每个摘要,注释者根据5点李克特量表对五个标准进行了评估:连贯性、一致性、流畅性、相关性和5W1H。我们使用这些数据重新评估用于评估摘要的传统自动指标,以及在英语任务中表现出色的几种LLM-as-a-Judge模型。我们的结果表明,当前的专有法官LLM与人类评判的相关性最高,其次是特定标准的自动指标,而开源的法官LLM表现较差。我们公开发布了BASSE和我们的代码,以及包含22,525篇新闻文章及其副标题的第一个大规模巴斯克语摘要数据集。