LLM2D

摘要

本文比较了传统机器学习方法、基于编码器的模型和大型语言模型 (LLM) 在检测抑郁症和焦虑症方面的有效性。我们考虑了五个数据集，每个数据集在格式和用于定义目标病理类别的方法上有所不同。我们测试了基于语言特征的 AutoML 模型、几种基于编码器的 Transformer 变体（例如 BERT）以及最先进的 LLM 作为病理分类模型。结果表明，LLM 的性能优于传统方法，尤其是在数据嘈杂且较小、训练样本的文本长度和类型差异很大的情况下。然而，当使用来自临床确诊抑郁症患者的文本进行训练时，心理语言学特征和基于编码器的模型可以达到与语言模型相当的性能，突出了它们在目标临床应用中的潜在有效性。