摘要
arXiv:2409.13746v2 声明类型:replace-cross
摘要:本研究评估了大型语言模型(LLMs)将生物医学本体术语映射到人类表型本体(HPO)、基因本体(GO)和UniProtKB术语对应的本体ID的能力。我们使用PubMed Central(PMC)数据集中本体ID的计数作为生物医学文献中其流行程度的代理,检查了本体ID的流行程度与映射准确性之间的关系。结果表明,本体ID的流行程度强烈预测HPO术语到HPO ID、GO术语到GO ID以及蛋白质名称到UniProtKB访问号的准确映射。生物医学文献中本体ID的高流行程度与更高的映射准确性相关联。基于受试者操作特征(ROC)曲线建立的预测模型确认了这种关系。
相比之下,这种模式不适用于将蛋白质名称映射到人类基因组织(HUGO)基因符号。GPT-4在将蛋白质名称映射到HUGO基因符号方面达到了很高的基线性能(95%),而映射准确性不受流行程度的影响。我们认为,文献中HUGO基因符号的高流行程度导致这些符号被词法化,从而使GPT-4能够以高精度将蛋白质名称映射到HUGO基因符号。这些发现突显了LLMs在映射低流行度本体ID时的局限性,并强调了在生物医学应用中训练和评估LLMs时考虑本体ID流行程度的重要性。