LLM2D

摘要

arXiv:2504.00061v1 交叉类型：cross 摘要：在预诊断环境中，有效的医患沟通至关重要，特别是在不孕不育等复杂和敏感的医疗领域尤为重要。然而，这种沟通耗费大量时间，因此使得诊所的工作流程变得不那么高效。近期大型语言模型（LLMs）的进展可能为自动化病史采集并提高诊断准确性提供解决方案。本研究评估了LLMs在不孕不育病例中执行这些任务的可行性和性能。一个基于AI的对话系统使用ChatGPT-4o和ChatGPT-4o-mini模拟了医患互动。总共处理了70个真实的不孕不育病例，生成了420份诊断历史。通过对模型性能的评估，包括F1分数、鉴别诊断（DDs）准确性以及不孕类型判断（ITJ）准确性。ChatGPT-4o-mini在信息提取准确性方面优于ChatGPT-4o（F1分数：0.9258 vs. 0.9029，p = 0.045，d = 0.244），并在医学病史采集方面的完整性更高（97.58% vs. 77.11%），表明ChatGPT-4o-mini在提取详细患者信息方面更有效，这是提高诊断准确性的关键。相比之下，ChatGPT-4o在鉴别诊断准确性方面略胜一筹（2.0524 vs. 2.0048，p > 0.05）。ChatGPT-4o-mini在ITJ准确性方面更高（0.6476 vs. 0.5905），但一致性较低（Cronbach's α = 0.562），表明分类可靠性存在变异性。两种模型在自动化不孕不育病史采集方面显示出较强的可行性，其中ChatGPT-4o-mini在完整性与提取准确性方面表现更优。未来的研究需要优先考虑临床场景中的专家验证、AI模型的微调以及包含不孕不育病例多样性更大的数据集。