LLM2D
尚未达到完美!评估大型语言模型在共病精神健康诊断中的应用
Still Not Quite There! Evaluating Large Language Models for Comorbid Mental Health Diagnosis
作者: Amey Hengle, Atharva Kulkarni, Shantanu Patankar, Madhumitha Chandrasekaran, Sneha D'Silva, Jemima Jacob, Rashmi Gupta
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.03908v1

摘要

本研究介绍了 ANGST,一个全新的、首创的基准,用于从社交媒体帖子中识别抑郁症和焦虑症共病。与当代数据集不同,这些数据集往往通过将不同的精神健康障碍视为孤立的疾病来过度简化不同精神健康障碍之间的复杂相互作用,ANGST 允许多标签分类,允许每个帖子同时被识别为指示抑郁症和/或焦虑症。ANGST 包含由专家心理学家精心标注的 2876 个帖子,以及另外 7667 个银标帖子,它提出了一个更具代表性的在线心理健康话语样本。此外,我们使用各种最先进的语言模型(从 Mental-BERT 到 GPT-4)对 ANGST 进行基准测试。我们的结果为这些模型在复杂诊断场景中的能力和局限性提供了重要见解。虽然 GPT-4 通常优于其他模型,但没有一个模型在多类别共病分类中达到超过 72% 的 F1 分数,这突出了将语言模型应用于心理健康诊断方面持续存在的挑战。