LLM2D

摘要

抑郁症是全球精神健康领域的一个重要问题，促使人们对基于人工智能的检测方法进行广泛的研究。在各种人工智能技术中，大型语言模型 (LLM) 在精神卫生保健应用中的多功能性尤为突出。然而，它们的主要局限性在于完全依赖于文本输入，这限制了它们的整体能力。此外，LLM 在识别和分析抑郁状态方面的应用仍然相对未开发。在本文中，我们提出了一种将声学语音信息整合到 LLM 框架中的创新方法，用于多模态抑郁症检测。我们研究了一种通过利用声学地标将语音信号整合到 LLM 中的有效抑郁症检测方法。通过结合声学地标（这些地标特定于口语单词的发音），我们的方法为文本转录增加了关键维度。这种集成还提供了对个人独特语音模式的见解，揭示了个人潜在的精神状态。对 DAIC-WOZ 数据集上提出的方法进行的评估表明，与现有的音频文本基线相比，该方法取得了最先进的结果。此外，这种方法不仅对抑郁症的检测具有价值，而且代表了增强 LLM 理解和处理语音信号能力的新视角。