LLM2D

摘要

语音病理学对交流能力和生活质量有影响。虽然基于深度学习的模型在诊断这些疾病方面显示出潜力，但敏感数据的应用引发了重大的隐私问题。尽管同样存在着重大的隐私问题，但差分隐私 (DP) 在医学影像领域得到了探索，但在病理语音分析中的应用却鲜有研究。本研究首次调查了 DP 对病理语音数据的影响，重点关注隐私、诊断准确性和公平性之间的权衡。使用来自 2,839 位德语使用者的大型真实世界数据集（200 小时录音），我们观察到，当使用隐私预算（用 {\epsilon} 表示）为 7.51 的 DP 进行训练时，准确率最大降低了 3.85%。为了概括我们的发现，我们在西班牙语帕金森病患者的小型数据集上验证了我们的方法，表明在大型特定任务数据集上进行仔细的预训练可以在 DP 约束下保持甚至提高模型准确率。我们还进行了全面的公平性分析，结果表明合理的隐私级别 (2<{\epsilon}<10) 不会引入显著的性别偏差，但与年龄相关的差异可能需要进一步关注。我们的结果表明，DP 可以有效地平衡语音障碍检测中的隐私和效用，但也突出了语音领域独特的挑战，特别是在隐私-公平性权衡方面。这为未来的工作奠定了基础，以便改进 DP 方法，并在实际部署中解决不同患者群体之间的公平性问题。