摘要
arXiv:2504.18569v1 宣布类型: cross
摘要:医疗数据中私人信息的去标识化是减轻机密性泄露风险的关键过程,尤其是在患者个人信息未被充分移除之前发布医疗记录时。虽然已经提出了基于规则和基于学习的方法,但它们往往在通用性方面存在局限性,并且需要大量的注释数据才能有效运行。近年来,大型语言模型(LLMs)在解决这些问题方面显示出显著的潜力,因为它们具有出色的语言理解能力。然而,LLMs也面临挑战,包括使用商用LLM API 可能带来的潜在隐私风险,以及在本地部署开源LLM时的高计算成本。在这项工作中,我们介绍了LPPA,这是一个使用LLM的隐私保护 PHI 注释框架,针对英语语言。通过使用合成记录对LLM进行本地微调,LPPA 确保了强大的隐私保护和高精度的 PHI 注释。广泛的实验表明,LPPA 在准确去标识化私人信息方面表现出色,提供了增强患者隐私保护的可扩展和高效解决方案。