LLM2D

摘要

arXiv:2505.06108v2 通知类型: 交叉替换摘要：本研究系统地评估了27种前沿的大规模语言模型在覆盖分子生物学、遗传学、克隆、病毒学和生物安全八个生物学基准上的表现。这些基准从11月2022年至4月2025年由主要人工智能开发商发布的模型进行了十次独立的基准评估。研究结果揭示了生物学能力的显著提升。在病毒学能力测试的具有挑战性的纯文本子集上，顶级模型的表现在这段时间内提高了超过4倍，而OpenAI的o3现在的表现与专家病毒学家相当，甚至更好。一些模型现在在其他具有挑战性的基准测试中达到了或超过了专家级的水平，包括GPQA和WMDP的生物学子集以及LAB-Bench的克隆情景。与预期相反，在零样本评估中，chain-of-thought并没有显著提高性能，而o3-mini和Claude 3.7 Sonnet扩展的推理功能通常如预期的那样提高了性能，这是基于推理扩展的预测。如PubMedQA和MMLU以及WMDP的生物学子集等基准表现出接近100%的性能上限，表明基准饱和以及基准底层数据中的错误。该分析强调，随着人工智能系统的不断进步，需要更复杂的评估方法。