LLM2D

摘要

预训练的大型语言模型（LLMs）因其在自然语言处理中的成功，在生物医学领域引起了越来越多的关注。然而，多源基因组数据的复杂特征和异质性在将这些模型应用于生物信息学和生物医学领域时带来了重大挑战。为了应对这些挑战，我们提出了 GP-GPT，这是第一个专门用于基因型-表型知识表示和基因组关系分析的大型语言模型。我们的模型在两个阶段上对一个综合语料库进行了微调，该语料库包含来自多个大规模验证数据集和科学出版物的基因组学、蛋白质组学和医学遗传学中的超过 3,000,000 个术语。GP-GPT 在准确检索医学遗传学信息和执行常见的基因组学分析任务（如基因组学信息检索和关系确定）方面表现出色。跨域特定任务的比较实验表明，GP-GPT 优于最先进的 LLM，包括 Llama2、Llama3 和 GPT-4。这些结果突出了 GP-GPT 在增强遗传疾病关系研究和促进基因组学和医学遗传学领域准确高效分析方面的潜力。我们的研究证明了生物因子实体在 GP-GPT 中表示的细微变化，这表明将 LLM 应用于促进基因-表型研究的机会。