LLM2D

摘要

arXiv:2501.13957v2 通知类型: 替换交叉摘要：结构化临床考试（OSCEs）广泛用于评估医学生沟通技能，但评分面试评估耗时且可能受到人为偏见的影响。本研究探讨了大型语言模型（LLMs）利用大师面试评分量表（MIRS）自动化OSCE评估的潜力。我们比较了四款最先进的LLMs（GPT-4o、Claude 3.5、Llama 3.1和Gemini 1.5 Pro）在零样本、链式思考（CoT）、少量样本和多步提示条件下，对MIRS所有28项内容及其10个OSCE病例的专家共识评分进行评估的表现。模型在10个OSCE病例的数据集上进行了基准测试，该数据集包含174个专家共识评分。通过三个准确性指标（精确、近似一个单位、阈值）衡量模型性能。在所有MIRS项目和OSCE病例的平均值上，LLMs的精确度较低（0.27到0.44），但其近似一个单位和阈值的准确度较高（0.67到0.87和0.75到0.88）。零温度参数确保了GPT-4o的高内评价信度（α = 0.98）。链式思考、少量样本和多步提示技术在针对特定评估项目时证明是很有价值的。模型表现一致，与接见阶段和沟通领域无关。我们展示了AI辅助OSCE评估的可行性，并提供了多种LLMs在多种提示技术下的基准测试。我们的工作为LLMs提供了一个基准性能评估，为未来研究自动化评估临床沟通技能奠定了基础。