LLM2D
大型语言模型赋能的隐私保护框架:临床笔记中个人健康信息标注
Large Language Model Empowered Privacy-Protected Framework for PHI Annotation in Clinical Notes
作者: Guanchen Wu, Linzhi Zheng, Han Xie, Zhen Xiang, Jiaying Lu, Darren Liu, Delgersuren Bold, Bo Li, Xiao Hu, Carl Yang
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2504.18569v1

摘要

arXiv:2504.18569v1 宣布类型: cross 摘要:医疗数据中私人信息的去标识化是减轻机密性泄露风险的关键过程,尤其是在患者个人信息未被充分移除之前发布医疗记录时。虽然已经提出了基于规则和基于学习的方法,但它们往往在通用性方面存在局限性,并且需要大量的注释数据才能有效运行。近年来,大型语言模型(LLMs)在解决这些问题方面显示出显著的潜力,因为它们具有出色的语言理解能力。然而,LLMs也面临挑战,包括使用商用LLM API 可能带来的潜在隐私风险,以及在本地部署开源LLM时的高计算成本。在这项工作中,我们介绍了LPPA,这是一个使用LLM的隐私保护 PHI 注释框架,针对英语语言。通过使用合成记录对LLM进行本地微调,LPPA 确保了强大的隐私保护和高精度的 PHI 注释。广泛的实验表明,LPPA 在准确去标识化私人信息方面表现出色,提供了增强患者隐私保护的可扩展和高效解决方案。