LLM2D
SEval-Ex:一种声明级别可解释性总结评估框架
SEval-Ex: A Statement-Level Framework for Explainable Summarization Evaluation
作者: Tanguy Herserant, Vincent Guigue
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02235v1

摘要

arXiv:2505.02235v1 类别: cross 摘要: 在自然语言处理中,评估文本摘要质量仍然是一个关键性的挑战。当前的方法在性能和可解释性之间面临折衷。我们提出了SEval-Ex框架,通过将摘要评估分解为原子语句,从而在高性能和解释性之间架起桥梁。SEval-Ex采用两阶段流水线:首先使用大语言模型(LLM)从文本源和摘要中提取原子语句,然后进行生成语句的匹配。与现有的只提供摘要级评分的方法不同,我们的方法通过原子语句级别的对齐生成其决策的详细证据。在SummEval基准上的实验表明,SEval-Ex在一致性方面达到了最先进的性能,相关性为0.580,超过了基于GPT-4的评估器(0.521),同时保持了可解释性。最后,我们的框架展示了对幻觉的鲁棒性。