LLM2D

摘要

arXiv:2504.15261v1 宣布类型: 新摘要: 目标: 健康care数据碎片化是连接患者数据面临的一大挑战，需要强大的记录链接技术将来自多个来源的患者记录整合。本研究探讨了利用语言模型自动进行患者记录链接的可行性，重点研究了两个关键任务：分区和匹配。材料与方法: 我们利用密苏里癌症登记和研究中心的真实世界健康care数据，使用概率链接作为基线，将来自两个独立来源的患者记录进行连接。基于变体器模型RoBERTa，我们对分区任务进行了微调，使用句子嵌入。在匹配任务中，在微调和零样本设置下实验了多种语言模型，并评估了它们在与真实标签对比下的性能。结果: 微调后的分区模型在保持几乎完美的召回率的前提下，减少了92%的候选项对。在匹配任务中，微调后的Mistral-7B表现最佳，只有6个错误预测。在零样本设置下，Mistral-Small-24B表现最好，总共错误预测了55次。讨论: 微调后的语言模型在患者记录分区和匹配任务中取得了强劲的性能，但仍然不如基于规则和概率的混合方法在分区任务中准确和高效。此外，由于计算成本高，深度探寻-R1等推理模型在大规模记录链接中不太实用。结论: 本研究强调了语言模型在自动进行患者记录链接方面的潜力，通过消除手动进行患者记录链接所需的努力，提供了更高的效率。总体而言，语言模型提供了一种可扩展的解决方案，可以增强数据整合、减少手动努力，并支持疾病监控和研究。