LLM2D

摘要

arXiv:2505.07865v1 宣布类型：交叉摘要：近期的研究已经展示了将单细胞数据建模为自然语言的可行性，并揭示了利用强大的大型语言模型（LLMs）来理解细胞生物学的潜力。然而，对LLMs在语言驱动的单细胞分析任务方面的表现进行全面评估仍未被探索。为了应对这一挑战，我们引入了CellVerse——一个统一的以语言为中心的问题解答基准，该基准整合了四种类型的单细胞多组学数据，并包含了三级单细胞分析任务：细胞类型注释（细胞级别）、药物响应预测（药物级别）和扰动分析（基因级别）。在此基础上，我们系统地评估了160M到671B范围内的14种开源和封闭源LLMs在CellVerse上的表现。实验结果揭示：（1）现有的专家模型（C2S-Pythia）无法在CellVerse的所有子任务中做出合理决策，而通用模型如Qwen、Llama、GPT和DeepSeek家族模型在细胞生物学领域初步展示了理解能力。（2）当前LLMs的表现未达预期，存在很大的改进空间。值得注意的是，在广泛研究的药物响应预测任务中，所有评估的LLMs都没有表现出比随机猜测更好的性能。CellVerse提供了大规模实证的第一个证明，表明在将LLMs应用于细胞生物学方面仍存在重大挑战。通过引入CellVerse，我们为通过自然语言推进细胞生物学奠定了基础，并希望这一范式能促进下一代单细胞分析的发展。