LLM2D
ELM:基于语言模型的肿瘤组预测ensemble方法用于病理报告
ELM: Ensemble of Language Models for Predicting Tumor Group from Pathology Reports
作者: Lovedeep Gondara, Jonathan Simkin, Shebnum Devji, Gregory Arbour, Raymond Ng
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.21800v1

摘要

arXiv:2503.21800v1 交叉公告类型 摘要:基于人口的癌症注册库(PBCRs)在手动从非结构化病理报告中提取数据方面面临一个重大瓶颈,这一过程对于肿瘤组分配等任务至关重要,处理大约10万份报告可能需要消耗900个人小时。为了应对这一挑战,我们引入了ELM(Ensemble of Language Models,语言模型集成),这是一种新颖的基于集成的方法,利用了小型语言模型(SLMs)和大型语言模型(LLMs)。ELM 利用了六种微调的 SLMs,其中三种 SLMs 使用病理报告的上部,三种 SLMs 使用病理报告的下部,这样做是为了最大化报告覆盖率。对于肿瘤组分类,ELM 要求六种模型中有五种达成一致。对于分歧,由一个经过慎重策划提示的 LLM 进行仲裁。我们在十九种肿瘤组的评估中展示了 ELM 的平均准确率和召回率达到了 0.94,优于单模型和未使用 LLM 的集成方法。在不列颠哥伦比亚癌症注册库部署后,ELM 展示了如何可以在 PBCR 设置中成功应用 LLMs,并取得最先进的成果,显著提高操作效率,每年节省数百个人小时。