摘要
重度抑郁症(MDD)是一种普遍的精神健康状况,影响着全球3亿人。本研究提出了一种基于双向长短期记忆网络(BiLSTM)的三模态模型级融合架构,用于从临床访谈录音中进行抑郁症的二元分类。该架构整合了梅尔频率倒谱系数(MFCC)、面部动作单元(FAU)以及使用两阶段学习的GPT-4模型来处理文本数据。这是首个将大型语言模型融入多模态架构以解决此任务的研究。该模型在DAIC-WOZ AVEC 2016挑战赛的交叉验证分割和留一主体外交叉验证分割上取得了令人印象深刻的结果,超过了所有基线模型和多个最先进的模型。在留一主体外测试中,该模型的准确率为91.01%,F1分数为85.95%,精确率为80%,召回率为92.86%。