LLM2D

摘要

arXiv:2505.07896v1 宣告类型: cross 摘要: 通过单细胞水平的测序数据理解细胞身份和功能仍然是计算生物学中的一个关键挑战。我们提出了一种新的框架，利用NCBI Gene数据库中的基因特定文本注释来生成生物上下文化的细胞嵌入。对于单细胞RNA测序(scRNA-seq)数据集中的每个细胞，我们按表达水平对基因进行排名，检索它们的NCBI Gene描述，并使用大语言模型(LLMs)将这些描述转换为向量嵌入表示。所使用的模型包括OpenAI的text-embedding-ada-002、text-embedding-3-small和text-embedding-3-large（2024年1月），以及领域特定的模型BioBERT和SciBERT。嵌入是通过每个细胞中表达最高的N个基因的加权平均值计算出来的，提供了一种紧凑而又语义丰富的表示。这种方法将结构化的生物数据与最新的语言模型结合起来，使得下游应用，如细胞类型聚类、细胞脆弱性分析和轨迹推断，具有更好的可解释性。