LLM2D

摘要

本技术报告介绍了一个命名临床实体识别基准，用于评估医疗保健领域中的语言模型，解决从临床叙述中提取结构化信息的至关重要的自然语言处理 (NLP) 任务，以支持自动编码、临床试验队列识别和临床决策支持等应用。排行榜提供了一个标准化平台，用于评估各种语言模型（包括编码器和解码器架构）在跨多个医疗领域识别和分类临床实体的能力。利用精选的公开可用临床数据集，涵盖疾病、症状、药物、手术和实验室测量等实体。重要的是，这些实体根据观察性医疗结果合作伙伴 (OMOP) 共同数据模型进行标准化，确保跨不同医疗保健系统和数据集的一致性和互操作性，以及对模型性能的全面评估。模型性能主要使用 F1 分数进行评估，并辅以各种评估模式，以提供对模型性能的全面见解。该报告还包括对迄今为止评估的模型的简要分析，重点介绍观察到的趋势和局限性。通过建立这个基准框架，排行榜旨在促进透明度，促进比较分析，并推动临床实体识别任务的创新，解决医疗保健 NLP 中对稳健评估方法的需求。