摘要
arXiv:2503.21800v1 交叉公告类型
摘要:基于人口的癌症注册库(PBCRs)在手动从非结构化病理报告中提取数据方面面临一个重大瓶颈,这一过程对于肿瘤组分配等任务至关重要,处理大约10万份报告可能需要消耗900个人小时。为了应对这一挑战,我们引入了ELM(Ensemble of Language Models,语言模型集成),这是一种新颖的基于集成的方法,利用了小型语言模型(SLMs)和大型语言模型(LLMs)。ELM 利用了六种微调的 SLMs,其中三种 SLMs 使用病理报告的上部,三种 SLMs 使用病理报告的下部,这样做是为了最大化报告覆盖率。对于肿瘤组分类,ELM 要求六种模型中有五种达成一致。对于分歧,由一个经过慎重策划提示的 LLM 进行仲裁。我们在十九种肿瘤组的评估中展示了 ELM 的平均准确率和召回率达到了 0.94,优于单模型和未使用 LLM 的集成方法。在不列颠哥伦比亚癌症注册库部署后,ELM 展示了如何可以在 PBCR 设置中成功应用 LLMs,并取得最先进的成果,显著提高操作效率,每年节省数百个人小时。