LLM2D
ResearchArena: 评估大型语言模型作为研究代理收集和组织信息的能力
ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents
作者: Hao Kang, Chenyan Xiong
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2406.10291v2

摘要

arXiv:2406.10291v2 宣告类型: 替换 摘要:大型语言模型(LLMs)在多种自然语言处理任务中表现出色,但在执行诸如学术调研等特定领域、分析性任务时面临挑战。本研究介绍了ResearchArena,这是一个用于评估LLMs执行学术调研能力的基准。ResearchArena将调研过程分为三阶段:(1)信息发现,识别相关文献;(2)信息选择,评估论文的相关性和影响;(3)信息组织,将知识结构化为如思维导图之类的层级框架。值得注意的是,思维导图的构建被视作一个额外任务,反映了其在调研写作中的补充作用。为了支持这些评估,我们构建了一个包含1200万篇全文本学术论文和7900篇调研论文的线下环境。为了确保合规性,我们未重新分发受版权保护的材料,而是提供了从Semantic Scholar开放研究语料库(S2ORC)构建此环境的代码。初步评估显示,基于LLM的方法在性能上逊于基于关键词的检索方法,这突显了在自主研究领域提升LLM能力的重要机遇。