LLM2D
MedQA-CS:利用人工智能能力评估框架对大型语言模型临床技能进行基准测试
MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an AI-SCE Framework
作者: Zonghai Yao, Zihao Zhang, Chaolong Tang, Xingyu Bian, Youxia Zhao, Zhichao Yang, Junda Wang, Huixue Zhou, Won Seok Jang, Feiyun Ouyang, Hong Yu
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01553v1

摘要

医疗保健领域的人工智能 (AI) 和大型语言模型 (LLM) 需要先进的临床技能 (CS),但目前的基准测试无法全面评估这些技能。我们引入了 MedQA-CS,这是一个受医学教育的客观结构化临床考试 (OSCE) 启发的 AI-SCE 框架,旨在填补这一空白。MedQA-CS 通过两个指令遵循任务来评估 LLM,分别是 LLM-as-medical-student 和 LLM-as-CS-examiner,旨在反映真实的临床场景。我们的贡献包括开发 MedQA-CS,这是一个具有公开可用数据和专家注释的综合评估框架,并提供 LLM 作为 CS 评估中可靠评判者的定量和定性评估。我们的实验表明,与传统的单选题 QA 基准测试 (例如 MedQA) 相比,MedQA-CS 是一个更具挑战性的评估临床技能的基准测试。与现有基准测试相结合,MedQA-CS 可以对开放源代码和闭源 LLM 的临床能力进行更全面的评估。