摘要
近年来,许多研究从语义角度,利用认知科学的基准来评估大型语言模型(LLM)的创造力/新颖性。然而,在评估 LLM 时,学术出版物中的新颖性是一个尚未得到充分探索的领域。本文提出了一个学术新颖性基准(SchNovel),用于评估 LLM 评估学术论文新颖性的能力。SchNovel 包含 15000 对论文,这些论文来自六个领域,从 arXiv 数据集中抽取,出版日期相隔 2 到 10 年。在每一对中,假设最近发表的论文更具新颖性。此外,我们提出了 RAG-Novelty,它通过利用检索类似论文来评估新颖性,模拟了人类审稿人所采用的审查过程。大量的实验提供了对不同 LLM 评估新颖性能力的见解,并证明了 RAG-Novelty 优于最近的基线模型。