LLM2D
一个用于adapted大型语言模型的医院病程总结数据集和基准
A dataset and benchmark for hospital course summarization with adapted large language models
作者: Asad Aali, Dave Van Veen, Yamin Ishraq Arefeen, Jason Hom, Christian Bluethgen, Eduardo Pontes Reis, Sergios Gatidis, Namuun Clifford, Joseph Daws, Arash S. Tehrani, Jangwon Kim, Akshay S. Chaudhari
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2403.05720v5

摘要

arXiv:2403.05720v5 通知类型: 替换-交叉 摘要:简短住院总结(BHC)是临床文件,总结患者的住院情况。虽然大型语言模型(LLMs)在自动化现实世界任务方面展现了显著的能力,但它们在健康医疗应用领域,如从临床笔记合成简短住院总结的能力尚未得到证明。我们引入了一个新颖的预处理数据集,MIMIC-IV-BHC,它包含临床笔记和简短住院总结(BHC)配对,以适应LLMs进行简短住院总结的合成。此外,我们介绍了一个总结性能基准,其中包括两种通用语言模型和三种医疗保健适应的语言模型。我们使用临床笔记作为输入,应用基于提示(使用上下文学习)和基于微调的适应策略来适应三个开源语言模型(Clinical-T5-Large、Llama2-13B、FLAN-UL2)以及两种专有的语言模型(GPT-3.5、GPT-4)。我们使用自然语言相似度度量对这些语言模型进行跨多个上下文长度输入的评估。此外,我们进行了一项包含五名临床医生的临床研究,比较了临床医生撰写的和由LLM生成的简短住院总结,重点关注它们通过改进摘要质量增强临床决策制定的潜力。我们发现,在定量评估指标BLEU和BERT-Score的前提下,微调后的Llama2-13B模型优于其他领域适应模型。尽管微调后的Llama2-13B模型在临床笔记输入的上下文长度增加时显示出了更高的鲁棒性,但在GPT-4结合上下文学习的情况下,读者研究显示出对生成的GPT-4摘要比微调后的Llama2-13B摘要和原始摘要有明显偏好的倾向,这突显了进行定性临床评估的必要性。