LLM2D

摘要

arXiv:2504.10496v1 宣告类型: cross 摘要：大语言模型（LLMs）在完成诸如推理、翻译和问答等各种任务方面展现了显著的效果。然而，LLMs生成的回应中包含事实性错误内容的问题仍然是一个持续的挑战。在这项研究中，我们根据高层次提示，评估了既有的私有和开源LLMs在根据arXiv平台上的研究论文和文章链接生成相关响应方面的表现。为了便于这一评估，我们引入了arXivBench，一个专门用于评估arXiv平台上八大主要学科类别和计算机科学内部五个子领域的LLM性能的基准工具。我们的研究结果揭示了LLMs生成的回应在不同学科类别中的准确度存在显著差异，一些学科类别的准确度明显低于其他学科类别。值得注意的是，Claude-3.5-Sonnet在生成相关且准确的回应方面表现出明显的优越性。有趣的是，大多数LLMs在人工智能子领域中的准确度远高于其他子领域。该基准为评估LLMs生成的科学回应的可靠性提供了一个标准化工具，促进了LLMs在学术和研究环境中的更可靠使用。我们的代码已在https://github.com/arxivBenchLLM/arXivBench 开源，数据集可在https://huggingface.co/datasets/arXivBenchLLM/arXivBench 上获取。