LLM2D

摘要

arXiv:2503.10095v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在从在线文本预测心理健康结果方面展现了潜力，但传统分类方法往往缺乏可解释性和稳健性。本研究评估了结构化推理技术——Chain-of-Thought（CoT）、Self-Consistency（SC-CoT）和Tree-of-Thought（ToT）——以提高多个来源于Reddit的心理健康数据集的分类准确性。我们使用平衡准确率、F1分数和灵敏度/特异度等关键性能指标分析了基于推理的提示策略，包括零样本CoT和少量样本CoT。研究表明，增强推理的技术在直接预测方面提高了分类性能，特别是在复杂情况下表现尤为明显。与零样本非CoT提示、经过微调的预训练变压器模型（如BERT和Mental-RoBerta）以及开源的大型语言模型（如Mental Alpaca和Mental-Flan-T5）相比，基于推理的LLM在Dreaddit（+0.52%相对于M-LLM，+0.82%相对于BERT）和SDCNL（+4.67%相对于M-LLM，+2.17%相对于BERT）数据集上表现出了显著的提升。然而，在抑郁症严重程度和CSSRS预测中，性能有所下降，这可能是因为我们使用了更广泛的测试集导致数据集特定的限制。在提示策略中，少量样本CoT一直表现出色，进一步证明了基于推理的LLM的有效性。然而，数据集的变异性突显了模型可靠性和可解释性方面的挑战。本研究为心理健康的文本分类提供了基于推理的LLM技术的全面基准。它为这些技术在可扩展的临床应用中的潜力提供了见解，并指出了未来改进的关键挑战。