LLM2D

摘要

arXiv:2505.02235v1 类别: cross 摘要: 在自然语言处理中，评估文本摘要质量仍然是一个关键性的挑战。当前的方法在性能和可解释性之间面临折衷。我们提出了SEval-Ex框架，通过将摘要评估分解为原子语句，从而在高性能和解释性之间架起桥梁。SEval-Ex采用两阶段流水线：首先使用大语言模型（LLM）从文本源和摘要中提取原子语句，然后进行生成语句的匹配。与现有的只提供摘要级评分的方法不同，我们的方法通过原子语句级别的对齐生成其决策的详细证据。在SummEval基准上的实验表明，SEval-Ex在一致性方面达到了最先进的性能，相关性为0.580，超过了基于GPT-4的评估器（0.521），同时保持了可解释性。最后，我们的框架展示了对幻觉的鲁棒性。