摘要
arXiv:2501.13957v2 通知类型: 替换交叉
摘要:结构化临床考试(OSCEs)广泛用于评估医学生沟通技能,但评分面试评估耗时且可能受到人为偏见的影响。本研究探讨了大型语言模型(LLMs)利用大师面试评分量表(MIRS)自动化OSCE评估的潜力。我们比较了四款最先进的LLMs(GPT-4o、Claude 3.5、Llama 3.1和Gemini 1.5 Pro)在零样本、链式思考(CoT)、少量样本和多步提示条件下,对MIRS所有28项内容及其10个OSCE病例的专家共识评分进行评估的表现。模型在10个OSCE病例的数据集上进行了基准测试,该数据集包含174个专家共识评分。通过三个准确性指标(精确、近似一个单位、阈值)衡量模型性能。在所有MIRS项目和OSCE病例的平均值上,LLMs的精确度较低(0.27到0.44),但其近似一个单位和阈值的准确度较高(0.67到0.87和0.75到0.88)。零温度参数确保了GPT-4o的高内评价信度(α = 0.98)。链式思考、少量样本和多步提示技术在针对特定评估项目时证明是很有价值的。模型表现一致,与接见阶段和沟通领域无关。我们展示了AI辅助OSCE评估的可行性,并提供了多种LLMs在多种提示技术下的基准测试。我们的工作为LLMs提供了一个基准性能评估,为未来研究自动化评估临床沟通技能奠定了基础。