LLM2D

摘要

arXiv:2504.18569v1 宣布类型: cross 摘要：医疗数据中私人信息的去标识化是减轻机密性泄露风险的关键过程，尤其是在患者个人信息未被充分移除之前发布医疗记录时。虽然已经提出了基于规则和基于学习的方法，但它们往往在通用性方面存在局限性，并且需要大量的注释数据才能有效运行。近年来，大型语言模型（LLMs）在解决这些问题方面显示出显著的潜力，因为它们具有出色的语言理解能力。然而，LLMs也面临挑战，包括使用商用LLM API 可能带来的潜在隐私风险，以及在本地部署开源LLM时的高计算成本。在这项工作中，我们介绍了LPPA，这是一个使用LLM的隐私保护 PHI 注释框架，针对英语语言。通过使用合成记录对LLM进行本地微调，LPPA 确保了强大的隐私保护和高精度的 PHI 注释。广泛的实验表明，LPPA 在准确去标识化私人信息方面表现出色，提供了增强患者隐私保护的可扩展和高效解决方案。