摘要
大型语言模型在包括医疗保健在内的各个领域都展现出潜力。在本研究中,我们使用社交媒体数据对心理健康任务中大型语言模型进行了全面评估。我们探讨了包括 GPT-4、Llama 3、Gemini 等在内的各种大型语言模型在诸如二元疾病检测、疾病严重程度评估和精神病学知识评估等任务上的零样本 (ZS) 和少样本 (FS) 能力。我们的评估涉及 33 个模型,测试了跨任务的 9 个主要提示模板。主要发现表明,GPT-4 和 Llama 3 等模型在二元疾病检测中表现出优异的性能,在某些数据集上的准确率高达 85%。此外,提示工程在提高模型性能方面发挥了至关重要的作用。值得注意的是,Mixtral 8x22b 模型的性能提高了 20% 以上,而 Gemma 7b 的性能也获得了类似的提升。在疾病严重程度评估任务中,我们观察到 FS 学习显着提高了模型的准确性,突出了上下文示例在复杂评估中的重要性。值得注意的是,Phi-3-mini 模型的性能大幅提升,从 ZS 学习到 FS 学习,均衡准确率提高了 6.80% 以上,平均误差降低了近 1.3。在精神病学知识任务中,最新的模型总体上优于较老的、较大的模型,Llama 3.1 405b 的准确率达到了 91.2%。尽管取得了可喜的成果,但我们的分析也发现了一些挑战,包括跨数据集的性能差异以及对谨慎的提示工程的需求。此外,许多大型语言模型提供商实施的道德防护措施阻碍了对其性能的准确评估,因为它们倾向于不回复可能敏感的查询。