LLM2D
大型语言模型提升表型归一化准确性的简化检索器
A Simplified Retriever to Improve Accuracy of Phenotype Normalizations by Large Language Models
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13744v1

摘要

大型语言模型(LLMs)在结合了基于术语定义提供候选归一化的检索器后,在表型术语归一化任务中展示了更高的准确性。本文介绍了一种简化的检索器,通过使用BioBERT的上下文词嵌入在人类表型本体(HPO)中搜索候选匹配项,从而提升LLM的准确性,无需明确的术语定义。在基于在线孟德尔遗传学数据库(OMIM)临床摘要提取的术语上测试该方法,结果显示,在没有检索器增强的情况下,最先进的LLM的归一化准确率为62.3%,而在检索器增强后,准确率提升至90.3%。这种方法可能适用于其他生物医学术语归一化任务,并提供了一种比复杂检索方法更高效的替代方案。