摘要
抑郁症是全球精神健康领域的一个重要问题,促使人们对基于人工智能的检测方法进行广泛的研究。在各种人工智能技术中,大型语言模型 (LLM) 在精神卫生保健应用中的多功能性尤为突出。然而,它们的主要局限性在于完全依赖于文本输入,这限制了它们的整体能力。此外,LLM 在识别和分析抑郁状态方面的应用仍然相对未开发。在本文中,我们提出了一种将声学语音信息整合到 LLM 框架中的创新方法,用于多模态抑郁症检测。我们研究了一种通过利用声学地标将语音信号整合到 LLM 中的有效抑郁症检测方法。通过结合声学地标(这些地标特定于口语单词的发音),我们的方法为文本转录增加了关键维度。这种集成还提供了对个人独特语音模式的见解,揭示了个人潜在的精神状态。对 DAIC-WOZ 数据集上提出的方法进行的评估表明,与现有的音频文本基线相比,该方法取得了最先进的结果。此外,这种方法不仅对抑郁症的检测具有价值,而且代表了增强 LLM 理解和处理语音信号能力的新视角。