摘要
arXiv:2503.10095v2 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在从在线文本预测心理健康结果方面展现了潜力,但传统分类方法往往缺乏可解释性和稳健性。本研究评估了结构化推理技术——Chain-of-Thought(CoT)、Self-Consistency(SC-CoT)和Tree-of-Thought(ToT)——以提高多个来源于Reddit的心理健康数据集的分类准确性。我们使用平衡准确率、F1分数和灵敏度/特异度等关键性能指标分析了基于推理的提示策略,包括零样本CoT和少量样本CoT。研究表明,增强推理的技术在直接预测方面提高了分类性能,特别是在复杂情况下表现尤为明显。与零样本非CoT提示、经过微调的预训练变压器模型(如BERT和Mental-RoBerta)以及开源的大型语言模型(如Mental Alpaca和Mental-Flan-T5)相比,基于推理的LLM在Dreaddit(+0.52%相对于M-LLM,+0.82%相对于BERT)和SDCNL(+4.67%相对于M-LLM,+2.17%相对于BERT)数据集上表现出了显著的提升。然而,在抑郁症严重程度和CSSRS预测中,性能有所下降,这可能是因为我们使用了更广泛的测试集导致数据集特定的限制。在提示策略中,少量样本CoT一直表现出色,进一步证明了基于推理的LLM的有效性。然而,数据集的变异性突显了模型可靠性和可解释性方面的挑战。本研究为心理健康的文本分类提供了基于推理的LLM技术的全面基准。它为这些技术在可扩展的临床应用中的潜力提供了见解,并指出了未来改进的关键挑战。