摘要
arXiv:2406.04116v2 通知类型: 更新
摘要:当前在机器学习和人工智能领域的研究主要集中在模型构建和性能评估上,而对于数据收集的关注较少。然而,近期的研究表明,数据中的限制和偏差可能对可信度和可靠性产生负面影响。这些方面在心理健康和神经系统疾病等敏感领域尤为关键,因为语音数据被用于开发针对患者和医疗保健提供者的AI应用。在本文中,我们概述了可用于这一领域的可用语音数据集,以突出潜在的陷阱和改进的机会,并促进公平性和多样性。我们提供了一份全面的清单,列出了为心理健康和神经系统疾病构建语音数据集所需的关键要素,并将其提炼成一个侧重于伦理关切的可操作检查表,以促进更具责任感的研究。