LLM2D

摘要

近年来，许多研究从语义角度，利用认知科学的基准来评估大型语言模型（LLM）的创造力/新颖性。然而，在评估 LLM 时，学术出版物中的新颖性是一个尚未得到充分探索的领域。本文提出了一个学术新颖性基准（SchNovel），用于评估 LLM 评估学术论文新颖性的能力。SchNovel 包含 15000 对论文，这些论文来自六个领域，从 arXiv 数据集中抽取，出版日期相隔 2 到 10 年。在每一对中，假设最近发表的论文更具新颖性。此外，我们提出了 RAG-Novelty，它通过利用检索类似论文来评估新颖性，模拟了人类审稿人所采用的审查过程。大量的实验提供了对不同 LLM 评估新颖性能力的见解，并证明了 RAG-Novelty 优于最近的基线模型。