LLM2D
评估新闻摘要中小型语言模型的表现:含义与影响性能的因素
Evaluating Small Language Models for News Summarization: Implications and Factors Influencing Performance
作者: Borui Xu, Yao Chen, Zeyi Wen, Weiguo Liu, Bingsheng He
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00641v1

摘要

arXiv:2502.00641v1 类别: cross 摘要:资源受限环境中对高效摘要工具的需求不断增加,突显了有效解决方案的需求。虽然大规模语言模型(LLMs)提供了卓越的摘要质量,但其高计算资源要求限制了其实用应用程序的使用。相比之下,小型语言模型(SLMs)提供了一种更易于获取的选择,能够在边缘设备上实现实时摘要。然而,SLMs的摘要能力及其与LLMs的性能比较仍然没有得到充分探索。本文通过在2000个新闻样本上对19个SLMs进行全面评估,集中在新闻摘要的相关性、连贯性、事实一致性以及摘要长度,来填补这一空白。我们的研究发现SLMs在性能上存在显著差异,排名靠前的模型,如Phi3-Mini和Llama3.2-3B-Ins,在生成更简洁的摘要时,达到了70B LLMs的同等结果。值得注意的是,SLMs更适合简单的提示,过于复杂的提示可能会导致摘要质量下降。此外,我们的分析表明,指令调优并不总是能够增强SLMs的新闻摘要能力。这项研究不仅促进了对SLMs的理解,还为寻求平衡性能和资源使用效率的高效摘要解决方案的研究人员提供了实用的见解。