LLM2D

摘要

大型语言模型（LLMs）在结合了基于术语定义提供候选归一化的检索器后，在表型术语归一化任务中展示了更高的准确性。本文介绍了一种简化的检索器，通过使用BioBERT的上下文词嵌入在人类表型本体（HPO）中搜索候选匹配项，从而提升LLM的准确性，无需明确的术语定义。在基于在线孟德尔遗传学数据库（OMIM）临床摘要提取的术语上测试该方法，结果显示，在没有检索器增强的情况下，最先进的LLM的归一化准确率为62.3%，而在检索器增强后，准确率提升至90.3%。这种方法可能适用于其他生物医学术语归一化任务，并提供了一种比复杂检索方法更高效的替代方案。