摘要
arXiv:2310.16810v2 公告类型: replace-cross
摘要:本研究考察了GPT模型(ChatGPT、GPT-4和GPT-4o)生成符合人类指导方针的对话摘要的能力。我们的评估涉及在两个数据集(DialogSum,英语社交对话;DECODA,法语呼叫中心交互)上尝试各种提示,以引导模型遵循指导方针。基于摘要指导方针的人类评估作为主要评估方法,结合了广泛的定量和定性分析。我们的研究表明,GPT生成的摘要更受青睐,超过了特定任务的预训练模型和参考摘要,强调了尽管GPT模型有时会产生较长的输出且与参考摘要在词汇和结构上存在差异,它们仍能够遵循人类指导方针的能力。ROUGE、BERTScore和人类评估之间的差异强调了需要更加可靠的自动评估指标的必要性。