LLM2D
评估大型语言模型在妇产科病史采集中的可行性和准确性
Evaluating the Feasibility and Accuracy of Large Language Models for Medical History-Taking in Obstetrics and Gynecology
作者: Dou Liu, Ying Long, Sophia Zuoqiu, Tian Tang, Rong Yin
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00061v1

摘要

arXiv:2504.00061v1 交叉类型:cross 摘要:在预诊断环境中,有效的医患沟通至关重要,特别是在不孕不育等复杂和敏感的医疗领域尤为重要。然而,这种沟通耗费大量时间,因此使得诊所的工作流程变得不那么高效。近期大型语言模型(LLMs)的进展可能为自动化病史采集并提高诊断准确性提供解决方案。本研究评估了LLMs在不孕不育病例中执行这些任务的可行性和性能。一个基于AI的对话系统使用ChatGPT-4o和ChatGPT-4o-mini模拟了医患互动。总共处理了70个真实的不孕不育病例,生成了420份诊断历史。通过对模型性能的评估,包括F1分数、鉴别诊断(DDs)准确性以及不孕类型判断(ITJ)准确性。ChatGPT-4o-mini在信息提取准确性方面优于ChatGPT-4o(F1分数:0.9258 vs. 0.9029,p = 0.045,d = 0.244),并在医学病史采集方面的完整性更高(97.58% vs. 77.11%),表明ChatGPT-4o-mini在提取详细患者信息方面更有效,这是提高诊断准确性的关键。相比之下,ChatGPT-4o在鉴别诊断准确性方面略胜一筹(2.0524 vs. 2.0048,p > 0.05)。ChatGPT-4o-mini在ITJ准确性方面更高(0.6476 vs. 0.5905),但一致性较低(Cronbach's α = 0.562),表明分类可靠性存在变异性。两种模型在自动化不孕不育病史采集方面显示出较强的可行性,其中ChatGPT-4o-mini在完整性与提取准确性方面表现更优。未来的研究需要优先考虑临床场景中的专家验证、AI模型的微调以及包含不孕不育病例多样性更大的数据集。