LLM2D
文本总结的实证比较:大型语言模型的多维度评估
An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models
作者: Anantharaman Janakiraman, Behnaz Ghoraani
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04534v1

摘要

arXiv:2504.04534v1 类型: cross 摘要:领域包括 journalism、medicine 和 business 的信息过载问题需要通过文本摘要来缓解。这项研究使用一种新的多维度框架,评估了 17 个大型语言模型(OpenAI、Google、Anthropic、开源)的摘要性能。我们在三个不同的输出长度(50、100、150 个标记)下,使用事实一致性、语义相似性、词法重叠和人类质量的度量标准,对七个多样性数据集(BigPatent、BillSum、CNN/DailyMail、PubMed、SAMSum、WikiHow、XSum)进行了评估,同时考虑了效率因素。我们的研究结果揭示了显著的性能差异,特定模型在事实准确性(deepseek-v3)、人类质量(claude-3-5-sonnet)和处理效率/成本效益(gemini-1.5-flash、gemini-2.0-flash)方面表现出色。不同数据集之间性能差异显著,模型在技术领域表现不佳,在对话内容方面表现良好。我们发现,在 50 个标记时事实一致性最好,在 150 个标记时感知质量最好。我们的分析提供了基于证据的建议,适用于从需要事实准确性的高风险应用到需要高效处理的资源限制环境的不同用例。这种全面的方法通过结合质量指标和运营考虑,涵盖了准确性、效率和成本效益之间的权衡,从而指导特定应用中的模型选择,进一步提升了评估方法。