摘要
本技术报告介绍了一个命名临床实体识别基准,用于评估医疗保健领域中的语言模型,解决从临床叙述中提取结构化信息的至关重要的自然语言处理 (NLP) 任务,以支持自动编码、临床试验队列识别和临床决策支持等应用。
排行榜提供了一个标准化平台,用于评估各种语言模型(包括编码器和解码器架构)在跨多个医疗领域识别和分类临床实体的能力。利用精选的公开可用临床数据集,涵盖疾病、症状、药物、手术和实验室测量等实体。重要的是,这些实体根据观察性医疗结果合作伙伴 (OMOP) 共同数据模型进行标准化,确保跨不同医疗保健系统和数据集的一致性和互操作性,以及对模型性能的全面评估。模型性能主要使用 F1 分数进行评估,并辅以各种评估模式,以提供对模型性能的全面见解。该报告还包括对迄今为止评估的模型的简要分析,重点介绍观察到的趋势和局限性。
通过建立这个基准框架,排行榜旨在促进透明度,促进比较分析,并推动临床实体识别任务的创新,解决医疗保健 NLP 中对稳健评估方法的需求。