LLM2D

摘要

arXiv:2505.06108v1 宣布类型：交叉摘要：本研究系统评估了27个前沿的大规模语言模型在八个涵盖分子生物学、遗传学、克隆、病毒学和生物安全的多样化生物基准测试上的表现。这些基准测试范围涵盖了病毒学能力测试中的分子生物学、遗传学、克隆、病毒学和生物安全领域的众多方面。来自主要AI开发者在2022年11月到2025年4月之间发布的模型在每个基准测试中进行了十次独立运行的评估。研究结果表明，生物能力有了显著的提升。挑战性的文本子集在病毒学能力测试中的顶级模型在这段时间内的性能提高了4倍以上，现在顶级模型的表现比专家病毒学家的水平高出一倍。多个模型现在在诸如LAB-Bench克隆情境、GPQA和WMDP的生物学子集等其他具有挑战性的基准测试中达到了或超过了专家级水平。与预期相反，思维链在零样本评估中没有显著提高性能，而o3-mini和Claude 3.7 Sonnet中的扩展推理功能通常如预期的根据推理扩展来提高性能。PubMedQA基准测试以及MMLU和WMDP的生物学子集表现出低于100%的性能平台效应，这表明基准饱和以及底层基准测试数据中的错误。分析强调，随着AI系统的持续进步，需要更复杂的评估方法。