LLM2D

摘要

背景：大型语言模型（LLMs）在临床决策支持中的应用取得了显著进展。然而，基于真实世界医疗数据，LLMs在提供准确临床决策方面的潜力和局限性仍需高质量证据。目的：定量评估通用最先进的LLMs（ChatGPT和GPT-4）是否能通过逻辑推理预测心肌梗死（MI）的发病风险，并进一步比较各模型以全面评估LLMs的性能。方法：在这项回顾性队列研究中，最初从2006年至2010年招募的482,310名参与者被纳入英国生物银行数据库，随后重新抽样为690名参与者的最终队列。对于每位参与者，MI风险因素的表格数据被转换为标准化的文本描述以供ChatGPT识别。通过要求ChatGPT选择0到10之间的分数来表示风险，生成响应。使用思维链（CoT）提问来评估LLMs是否逻辑上进行预测。ChatGPT的预测性能与已发表的医学指数、传统机器学习模型和其他大型语言模型进行了比较。结论：当前的LLMs尚未准备好应用于临床医学领域。未来的医学LLMs应具备医学领域专业知识，以理解自然语言和量化医疗数据，并进一步进行逻辑推理。