摘要
大型语言模型(LLMs)在结合了基于术语定义提供候选归一化的检索器后,在表型术语归一化任务中展示了更高的准确性。本文介绍了一种简化的检索器,通过使用BioBERT的上下文词嵌入在人类表型本体(HPO)中搜索候选匹配项,从而提升LLM的准确性,无需明确的术语定义。在基于在线孟德尔遗传学数据库(OMIM)临床摘要提取的术语上测试该方法,结果显示,在没有检索器增强的情况下,最先进的LLM的归一化准确率为62.3%,而在检索器增强后,准确率提升至90.3%。这种方法可能适用于其他生物医学术语归一化任务,并提供了一种比复杂检索方法更高效的替代方案。