摘要
arXiv:2504.15261v1 宣布类型: 新
摘要: 目标: 健康care数据碎片化是连接患者数据面临的一大挑战,需要强大的记录链接技术将来自多个来源的患者记录整合。本研究探讨了利用语言模型自动进行患者记录链接的可行性,重点研究了两个关键任务:分区和匹配。材料与方法: 我们利用密苏里癌症登记和研究中心的真实世界健康care数据,使用概率链接作为基线,将来自两个独立来源的患者记录进行连接。基于变体器模型RoBERTa,我们对分区任务进行了微调,使用句子嵌入。在匹配任务中,在微调和零样本设置下实验了多种语言模型,并评估了它们在与真实标签对比下的性能。结果: 微调后的分区模型在保持几乎完美的召回率的前提下,减少了92%的候选项对。在匹配任务中,微调后的Mistral-7B表现最佳,只有6个错误预测。在零样本设置下,Mistral-Small-24B表现最好,总共错误预测了55次。讨论: 微调后的语言模型在患者记录分区和匹配任务中取得了强劲的性能,但仍然不如基于规则和概率的混合方法在分区任务中准确和高效。此外,由于计算成本高,深度探寻-R1等推理模型在大规模记录链接中不太实用。结论: 本研究强调了语言模型在自动进行患者记录链接方面的潜力,通过消除手动进行患者记录链接所需的努力,提供了更高的效率。总体而言,语言模型提供了一种可扩展的解决方案,可以增强数据整合、减少手动努力,并支持疾病监控和研究。