LLM2D

摘要

arXiv:2502.05638v1 交叉公告类型摘要：欧洲的医疗保健系统需要增强的互操作性和数字化，推动了对处理遗留临床数据的创新解决方案的需求。本文介绍了我们项目的结果，该项目旨在利用大型语言模型（LLMs）从无结构的临床报告中提取结构化信息，重点是患者的病史、诊断、治疗以及其他预定义类别。我们开发了一个带有用户界面的工作流程，并通过提示策略和微调评估了不同大小的大型语言模型。我们的结果显示，微调后的较小模型在性能上与较大模型相当或超越，为资源有限的环境提供了效率。我们验证了一个包含60,000个标注的英语临床摘要和24,000个德语翻译的新数据集，并使用了自动和人工检查。评估使用了ROUGE、BERTScore和实体级别指标。该工作强调了该方法的可行性，并概述了未来的改进方向。