LLM2D
GPT模型能遵循人类总结准则吗?针对特定沟通目标的研究
Can GPT models Follow Human Summarization Guidelines? A Study for Targeted Communication Goals
作者: Yongxin Zhou, Fabien Ringeval, Fran\c{c}ois Portet
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2310.16810v2

摘要

arXiv:2310.16810v2 公告类型: replace-cross 摘要:本研究考察了GPT模型(ChatGPT、GPT-4和GPT-4o)生成符合人类指导方针的对话摘要的能力。我们的评估涉及在两个数据集(DialogSum,英语社交对话;DECODA,法语呼叫中心交互)上尝试各种提示,以引导模型遵循指导方针。基于摘要指导方针的人类评估作为主要评估方法,结合了广泛的定量和定性分析。我们的研究表明,GPT生成的摘要更受青睐,超过了特定任务的预训练模型和参考摘要,强调了尽管GPT模型有时会产生较长的输出且与参考摘要在词汇和结构上存在差异,它们仍能够遵循人类指导方针的能力。ROUGE、BERTScore和人类评估之间的差异强调了需要更加可靠的自动评估指标的必要性。