LLM2D
ArxivBench: 大型语言模型能协助研究人员进行研究吗?
ArxivBench: Can LLMs Assist Researchers in Conducting Research?
作者: Ning Li, Jingran Zhang, Justin Cui
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10496v1

摘要

arXiv:2504.10496v1 宣告类型: cross 摘要:大语言模型(LLMs)在完成诸如推理、翻译和问答等各种任务方面展现了显著的效果。然而,LLMs生成的回应中包含事实性错误内容的问题仍然是一个持续的挑战。在这项研究中,我们根据高层次提示,评估了既有的私有和开源LLMs在根据arXiv平台上的研究论文和文章链接生成相关响应方面的表现。为了便于这一评估,我们引入了arXivBench,一个专门用于评估arXiv平台上八大主要学科类别和计算机科学内部五个子领域的LLM性能的基准工具。我们的研究结果揭示了LLMs生成的回应在不同学科类别中的准确度存在显著差异,一些学科类别的准确度明显低于其他学科类别。值得注意的是,Claude-3.5-Sonnet在生成相关且准确的回应方面表现出明显的优越性。有趣的是,大多数LLMs在人工智能子领域中的准确度远高于其他子领域。该基准为评估LLMs生成的科学回应的可靠性提供了一个标准化工具,促进了LLMs在学术和研究环境中的更可靠使用。我们的代码已在https://github.com/arxivBenchLLM/arXivBench 开源,数据集可在https://huggingface.co/datasets/arXivBenchLLM/arXivBench 上获取。