摘要
arXiv:2502.05638v1 交叉公告类型
摘要:欧洲的医疗保健系统需要增强的互操作性和数字化,推动了对处理遗留临床数据的创新解决方案的需求。本文介绍了我们项目的结果,该项目旨在利用大型语言模型(LLMs)从无结构的临床报告中提取结构化信息,重点是患者的病史、诊断、治疗以及其他预定义类别。我们开发了一个带有用户界面的工作流程,并通过提示策略和微调评估了不同大小的大型语言模型。我们的结果显示,微调后的较小模型在性能上与较大模型相当或超越,为资源有限的环境提供了效率。我们验证了一个包含60,000个标注的英语临床摘要和24,000个德语翻译的新数据集,并使用了自动和人工检查。评估使用了ROUGE、BERTScore和实体级别指标。该工作强调了该方法的可行性,并概述了未来的改进方向。