LLM2D
少未必多:大型语言模型在归一化低频词时准确性较低
When Less Is Not More: Large Language Models Normalize Less-Frequent Terms with Lower Accuracy
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13746v1

摘要

术语规范化是将自由文本中的术语映射到本体中的标准化概念及其机器可读代码的过程。准确规范化捕捉患者和疾病之间表型差异的术语对于精准医学计划的成功至关重要。大型语言模型(如GPT-4o)可以将术语规范化到人类表型本体(HPO),但可能会检索到错误的HPO ID。由于测试数据集偏向于高频术语,LLM在这些任务上的报告准确率可能被夸大。在我们的研究中,使用来自HPO的12,655种疾病的268,776个表型注释的综合数据集,GPT-4o在规范化11,225个唯一术语时达到了13.1%的准确率。然而,准确率的分布不均匀,高频和较短的术语比低频和较长的术语更准确地被规范化。使用SHAP和排列方法的特征重要性分析确定术语频率低是规范化错误的最显著预测因子。这些发现表明,基于LLM的术语规范化训练和评估数据集应平衡低频和高频术语,以提高模型性能,特别是对于精准医学至关重要的不常见术语。