摘要
arXiv:2504.01767v1 声称类型:交叉
摘要:全球心理健康障碍(如抑郁症和 PTSD)的发病率日益增加,这要求客观和规模化的诊断工具。传统的临床评估常常面临可访问性、客观性和一致性方面的局限性。本文探讨了跨模态机器学习在应对这些挑战方面的潜在能力,利用文本、音频和视频数据中互补的信息。我们的方法包括对各种数据预处理技术进行全面分析,包括新的片段和话语格式化策略。我们系统性地评估了每种模态下的最新嵌入模型,并使用卷积神经网络(CNNs)和双向长短期记忆网络(BiLSTMs)进行特征提取。我们探索了数据层面、特征层面和决策层面的融合技术,包括将大型语言模型(LLM)预测进行新颖的集成。我们还研究了用支持向量机(SVM)替换多层感知器(MLP)分类器的影响。我们将分析扩展到使用 PHQ-8 和 PCL-C 评分的严重程度预测,并进行多类别分类(考虑共病情况)。我们的结果表明,基于话语的片段化显著提高了表现,特别是在文本和音频模态方面。决策层面的融合,结合 LLM 预测,达到了最高的准确性,抑郁情绪检测的平衡精度为 94.8%,PTSD 检测的平衡精度为 96.2%。结合 CNN-BiLSTM 架构和基于话语层级的片段化,与外部 LLM 整合,提供了一种强大而细腻的方法来检测和评估心理健康状况。我们的研究结果突显了跨模态机器学习(MMML)在开发更准确、更可访问和更个性化的心理健康护理工具方面的潜力。