LLM2D

摘要

医疗保健领域的人工智能 (AI) 和大型语言模型 (LLM) 需要先进的临床技能 (CS)，但目前的基准测试无法全面评估这些技能。我们引入了 MedQA-CS，这是一个受医学教育的客观结构化临床考试 (OSCE) 启发的 AI-SCE 框架，旨在填补这一空白。MedQA-CS 通过两个指令遵循任务来评估 LLM，分别是 LLM-as-medical-student 和 LLM-as-CS-examiner，旨在反映真实的临床场景。我们的贡献包括开发 MedQA-CS，这是一个具有公开可用数据和专家注释的综合评估框架，并提供 LLM 作为 CS 评估中可靠评判者的定量和定性评估。我们的实验表明，与传统的单选题 QA 基准测试 (例如 MedQA) 相比，MedQA-CS 是一个更具挑战性的评估临床技能的基准测试。与现有基准测试相结合，MedQA-CS 可以对开放源代码和闭源 LLM 的临床能力进行更全面的评估。