LLM2D

摘要

arXiv:2505.08341v1 宣告类型: 新摘要：大型语言模型和多智能体系统的兴起激发了对能够自主从事生物研究的AI科学家的兴趣。然而，现有的基准要么专注于无数据的推理，要么专注于带有预定义统计答案的数据分析，缺乏现实且数据驱动的评估环境。在这里，我们介绍了生物AI科学家基准（BaisBench），该基准旨在评估AI科学家通过数据分析和与外部知识推理生成生物发现的能力。BaisBench 包含两个任务：在31个专家标注的单细胞数据集上的细胞类型注释，以及通过回答198道选择题进行科学发现，这些问题是从41项最近的单细胞研究的生物洞察中衍生出来的。对最先进的AI科学家和LLM代理进行的系统实验表明，尽管这些模型前景良好，但它们在两个任务上的表现仍然远远落后于人类专家。我们希望BaisBench能够填补这一空白，并作为推动和评估用于科学研究的AI模型的基础。该基准可以在以下链接找到：https://github.com/EperLuo/BaisBench。