LLM2D
基于深度学习的语音障碍检测中保护患者数据差分隐私
Differential privacy for protecting patient data in speech disorder detection using deep learning
作者: Soroosh Tayebi Arasteh, Mahshad Lotfinia, Paula Andrea Perez-Toro, Tomas Arias-Vergara, Juan Rafael Orozco-Arroyave, Maria Schuster, Andreas Maier, Seung Hee Yang
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19078v1

摘要

语音病理学对交流能力和生活质量有影响。虽然基于深度学习的模型在诊断这些疾病方面显示出潜力,但敏感数据的应用引发了重大的隐私问题。尽管同样存在着重大的隐私问题,但差分隐私 (DP) 在医学影像领域得到了探索,但在病理语音分析中的应用却鲜有研究。本研究首次调查了 DP 对病理语音数据的影响,重点关注隐私、诊断准确性和公平性之间的权衡。使用来自 2,839 位德语使用者的大型真实世界数据集(200 小时录音),我们观察到,当使用隐私预算(用 {\epsilon} 表示)为 7.51 的 DP 进行训练时,准确率最大降低了 3.85%。为了概括我们的发现,我们在西班牙语帕金森病患者的小型数据集上验证了我们的方法,表明在大型特定任务数据集上进行仔细的预训练可以在 DP 约束下保持甚至提高模型准确率。我们还进行了全面的公平性分析,结果表明合理的隐私级别 (2<{\epsilon}<10) 不会引入显著的性别偏差,但与年龄相关的差异可能需要进一步关注。我们的结果表明,DP 可以有效地平衡语音障碍检测中的隐私和效用,但也突出了语音领域独特的挑战,特别是在隐私-公平性权衡方面。这为未来的工作奠定了基础,以便改进 DP 方法,并在实际部署中解决不同患者群体之间的公平性问题。