LLM2D

摘要

arXiv:2503.17039v2 通告类型: replace-cross 摘要：关于评估指标和LLM-as-a-Judge模型在自动文本摘要中的研究主要集中在英语上，限制了我们对其在其他语言中的有效性理解。通过我们新的数据集BASSE（巴斯克语和西班牙语摘要评估），我们通过收集人工对2,040个抽象总结的人类评判来解决这一问题，这些总结或是手工生成的，或是由五种具有不同提示的LLM生成的。对于每个摘要，注释者根据5点李克特量表对五个标准进行了评估：连贯性、一致性、流畅性、相关性和5W1H。我们使用这些数据重新评估用于评估摘要的传统自动指标，以及在英语任务中表现出色的几种LLM-as-a-Judge模型。我们的结果表明，当前的专有法官LLM与人类评判的相关性最高，其次是特定标准的自动指标，而开源的法官LLM表现较差。我们公开发布了BASSE和我们的代码，以及包含22,525篇新闻文章及其副标题的第一个大规模巴斯克语摘要数据集。