LLM2D
大型语言模型能否逻辑预测心肌梗塞?基于英国生物样本库队列的评估
Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14478v1

摘要

背景:大型语言模型(LLMs)在临床决策支持中的应用取得了显著进展。然而,基于真实世界医疗数据,LLMs在提供准确临床决策方面的潜力和局限性仍需高质量证据。目的:定量评估通用最先进的LLMs(ChatGPT和GPT-4)是否能通过逻辑推理预测心肌梗死(MI)的发病风险,并进一步比较各模型以全面评估LLMs的性能。方法:在这项回顾性队列研究中,最初从2006年至2010年招募的482,310名参与者被纳入英国生物银行数据库,随后重新抽样为690名参与者的最终队列。对于每位参与者,MI风险因素的表格数据被转换为标准化的文本描述以供ChatGPT识别。通过要求ChatGPT选择0到10之间的分数来表示风险,生成响应。使用思维链(CoT)提问来评估LLMs是否逻辑上进行预测。ChatGPT的预测性能与已发表的医学指数、传统机器学习模型和其他大型语言模型进行了比较。结论:当前的LLMs尚未准备好应用于临床医学领域。未来的医学LLMs应具备医学领域专业知识,以理解自然语言和量化医疗数据,并进一步进行逻辑推理。