LLM2D

摘要

arXiv:2406.10291v2 宣告类型: 替换摘要：大型语言模型（LLMs）在多种自然语言处理任务中表现出色，但在执行诸如学术调研等特定领域、分析性任务时面临挑战。本研究介绍了ResearchArena，这是一个用于评估LLMs执行学术调研能力的基准。ResearchArena将调研过程分为三阶段：（1）信息发现，识别相关文献；（2）信息选择，评估论文的相关性和影响；（3）信息组织，将知识结构化为如思维导图之类的层级框架。值得注意的是，思维导图的构建被视作一个额外任务，反映了其在调研写作中的补充作用。为了支持这些评估，我们构建了一个包含1200万篇全文本学术论文和7900篇调研论文的线下环境。为了确保合规性，我们未重新分发受版权保护的材料，而是提供了从Semantic Scholar开放研究语料库（S2ORC）构建此环境的代码。初步评估显示，基于LLM的方法在性能上逊于基于关键词的检索方法，这突显了在自主研究领域提升LLM能力的重要机遇。