摘要
arXiv:2402.15589v2 宣告类型: 更新交叉
摘要:学术同行评审过程中最重要但也极其繁重的任务之一是撰写元审稿,这涉及汇总多名专家的不同意见,形成高级专家自身的判断,并将各种观点综合成一个简洁的整体概述,以作出整体建议。这一过程耗时且容易受到人类因素如疲劳、不一致、遗漏细节等的影响。考虑到大型语言模型(LLMs)的最新重大进展,认真研究LLMs能否帮助元审稿人员更好地完成这一重要任务是非常引人入胜的。在本文中,我们对三种流行的LLMs——GPT-3.5、LLaMA2和PaLM2——进行了一项案例研究,以帮助元审稿人员更全面地理解多位专家的观点,生成多视角总结(MPS)。为此,我们根据最近提出的TELeR分类法,为三种LLMs提供了不同类型的/级别的提示。最后,我们对LLMs生成的MPS进行了详细的定性研究,并报告了我们的发现。