LLM2D
CellVerse: 大型语言模型真的理解细胞生物学吗?
CellVerse: Do Large Language Models Really Understand Cell Biology?
作者: Fan Zhang, Tianyu Liu, Zhihong Zhu, Hao Wu, Haixin Wang, Donghao Zhou, Yefeng Zheng, Kun Wang, Xian Wu, Pheng-Ann Heng
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07865v1

摘要

arXiv:2505.07865v1 宣布类型:交叉 摘要:近期的研究已经展示了将单细胞数据建模为自然语言的可行性,并揭示了利用强大的大型语言模型(LLMs)来理解细胞生物学的潜力。然而,对LLMs在语言驱动的单细胞分析任务方面的表现进行全面评估仍未被探索。为了应对这一挑战,我们引入了CellVerse——一个统一的以语言为中心的问题解答基准,该基准整合了四种类型的单细胞多组学数据,并包含了三级单细胞分析任务:细胞类型注释(细胞级别)、药物响应预测(药物级别)和扰动分析(基因级别)。在此基础上,我们系统地评估了160M到671B范围内的14种开源和封闭源LLMs在CellVerse上的表现。实验结果揭示:(1)现有的专家模型(C2S-Pythia)无法在CellVerse的所有子任务中做出合理决策,而通用模型如Qwen、Llama、GPT和DeepSeek家族模型在细胞生物学领域初步展示了理解能力。(2)当前LLMs的表现未达预期,存在很大的改进空间。值得注意的是,在广泛研究的药物响应预测任务中,所有评估的LLMs都没有表现出比随机猜测更好的性能。CellVerse提供了大规模实证的第一个证明,表明在将LLMs应用于细胞生物学方面仍存在重大挑战。通过引入CellVerse,我们为通过自然语言推进细胞生物学奠定了基础,并希望这一范式能促进下一代单细胞分析的发展。