LLM2D

摘要

arXiv:2504.01767v1 声称类型：交叉摘要：全球心理健康障碍（如抑郁症和 PTSD）的发病率日益增加，这要求客观和规模化的诊断工具。传统的临床评估常常面临可访问性、客观性和一致性方面的局限性。本文探讨了跨模态机器学习在应对这些挑战方面的潜在能力，利用文本、音频和视频数据中互补的信息。我们的方法包括对各种数据预处理技术进行全面分析，包括新的片段和话语格式化策略。我们系统性地评估了每种模态下的最新嵌入模型，并使用卷积神经网络（CNNs）和双向长短期记忆网络（BiLSTMs）进行特征提取。我们探索了数据层面、特征层面和决策层面的融合技术，包括将大型语言模型（LLM）预测进行新颖的集成。我们还研究了用支持向量机（SVM）替换多层感知器（MLP）分类器的影响。我们将分析扩展到使用 PHQ-8 和 PCL-C 评分的严重程度预测，并进行多类别分类（考虑共病情况）。我们的结果表明，基于话语的片段化显著提高了表现，特别是在文本和音频模态方面。决策层面的融合，结合 LLM 预测，达到了最高的准确性，抑郁情绪检测的平衡精度为 94.8%，PTSD 检测的平衡精度为 96.2%。结合 CNN-BiLSTM 架构和基于话语层级的片段化，与外部 LLM 整合，提供了一种强大而细腻的方法来检测和评估心理健康状况。我们的研究结果突显了跨模态机器学习（MMML）在开发更准确、更可访问和更个性化的心理健康护理工具方面的潜力。