摘要
语言模型 (LM) 正在被用于心理健康应用,但由于这些应用中存在较高的不良后果风险,因此预测性能可能不足以作为模型在临床实践中实用性的试金石。一个可信赖的模型应该在解释和临床判断之间保持一致,但之前没有研究考察过这些模型的注意力保真度及其对真实解释的影响。我们提出了一种评估设计,重点关注 LM 在识别健康维度 (WD) 方面的稳健性和可解释性。我们关注两个现有的心理健康和福祉数据集:(a) 基于多标签分类的多 WD,以及 (b) WellXplain,用于评估注意力机制的真实性与专家标记的解释。这些标签基于 Halbert Dunn 的健康理论,为我们的评估提供了依据。我们揭示了关于 LM/LLM 的四个令人惊讶的结果:(1) 尽管它们具有类似人类的能力,GPT-3.5/4 落后于 RoBERTa,而 MedAlpaca(一个在 WellXplain 上微调的 LLM)未能带来性能或解释方面的任何显著改进。(2) 基于置信度导向的损失函数重新检验 LM 的预测结果表明性能显著下降。(3) 在所有 LM/LLM 中,注意力与解释之间的对齐度仍然很低,LLM 的得分低至 0.0。(4) 大多数心理健康专用 LM/LLM 忽略了领域特定知识,低估了解释,导致这些差异。这项研究强调需要进一步研究 LM/LLM 在心理健康和福祉方面的一致性和解释性。