摘要
arXiv:2505.02235v1 类别: cross
摘要: 在自然语言处理中,评估文本摘要质量仍然是一个关键性的挑战。当前的方法在性能和可解释性之间面临折衷。我们提出了SEval-Ex框架,通过将摘要评估分解为原子语句,从而在高性能和解释性之间架起桥梁。SEval-Ex采用两阶段流水线:首先使用大语言模型(LLM)从文本源和摘要中提取原子语句,然后进行生成语句的匹配。与现有的只提供摘要级评分的方法不同,我们的方法通过原子语句级别的对齐生成其决策的详细证据。在SummEval基准上的实验表明,SEval-Ex在一致性方面达到了最先进的性能,相关性为0.580,超过了基于GPT-4的评估器(0.521),同时保持了可解释性。最后,我们的框架展示了对幻觉的鲁棒性。