LLM2D

摘要

arXiv:2409.13746v2 声明类型：replace-cross 摘要：本研究评估了大型语言模型（LLMs）将生物医学本体术语映射到人类表型本体（HPO）、基因本体（GO）和UniProtKB术语对应的本体ID的能力。我们使用PubMed Central（PMC）数据集中本体ID的计数作为生物医学文献中其流行程度的代理，检查了本体ID的流行程度与映射准确性之间的关系。结果表明，本体ID的流行程度强烈预测HPO术语到HPO ID、GO术语到GO ID以及蛋白质名称到UniProtKB访问号的准确映射。生物医学文献中本体ID的高流行程度与更高的映射准确性相关联。基于受试者操作特征（ROC）曲线建立的预测模型确认了这种关系。相比之下，这种模式不适用于将蛋白质名称映射到人类基因组织（HUGO）基因符号。GPT-4在将蛋白质名称映射到HUGO基因符号方面达到了很高的基线性能（95%），而映射准确性不受流行程度的影响。我们认为，文献中HUGO基因符号的高流行程度导致这些符号被词法化，从而使GPT-4能够以高精度将蛋白质名称映射到HUGO基因符号。这些发现突显了LLMs在映射低流行度本体ID时的局限性，并强调了在生物医学应用中训练和评估LLMs时考虑本体ID流行程度的重要性。