摘要
arXiv:2406.10291v2 宣告类型: 替换
摘要:大型语言模型(LLMs)在多种自然语言处理任务中表现出色,但在执行诸如学术调研等特定领域、分析性任务时面临挑战。本研究介绍了ResearchArena,这是一个用于评估LLMs执行学术调研能力的基准。ResearchArena将调研过程分为三阶段:(1)信息发现,识别相关文献;(2)信息选择,评估论文的相关性和影响;(3)信息组织,将知识结构化为如思维导图之类的层级框架。值得注意的是,思维导图的构建被视作一个额外任务,反映了其在调研写作中的补充作用。为了支持这些评估,我们构建了一个包含1200万篇全文本学术论文和7900篇调研论文的线下环境。为了确保合规性,我们未重新分发受版权保护的材料,而是提供了从Semantic Scholar开放研究语料库(S2ORC)构建此环境的代码。初步评估显示,基于LLM的方法在性能上逊于基于关键词的检索方法,这突显了在自主研究领域提升LLM能力的重要机遇。