LLM2D

摘要

结构化的放射学报告有利于优化临床工作流程和患者预后。当前用于创建结构化报告的 LLM 面临着格式错误、内容幻觉以及上传到外部服务器时隐私泄露的挑战。我们的目标是开发一种增强的开源 LLM，用于从自由文本描述中创建结构化和标准化的 LCS 报告。在获得机构 IRB 批准后，我们回顾性分析了来自两个机构的 5,442 个去标识化的 LCS 报告。从两个机构随机选取 500 个报告，并进行均匀分配，然后手动标记以进行评估。来自两个机构的两位放射科医生共同开发了一个标准化模板，其中包含 29 个用于肺结节报告的功能。我们提出了一种模板约束解码方法来增强最先进的开源 LLM，包括 LLAMA、Qwen 和 Mistral。对 LLM 的性能进行了广泛评估，包括 F1 分数、置信区间、McNemar 检验和 z 检验。基于从大型数据集创建的结构化报告，我们对结节级检索系统进行了原型设计，并进行了自动统计分析。我们的软件 vLLM-structure 可公开获取，用于本地部署，并配备了增强型 LLM。我们的模板约束解码方法在多机构数据集上始终如一地提高了 LLM 的性能，既没有格式错误，也没有内容幻觉。我们的方法将最佳开源 LLAMA-3.1 405B 提高了高达 10.42%，并且优于 GPT-4o 17.19%。我们使用增强的 LLM 技术成功地对一个新颖的结节检索系统进行了原型设计，并在大型多模态数据库上进行了演示。自动得出的统计分布与先前关于结节类型、位置、大小、状态和 Lung-RADS 的发现高度一致。