摘要
arXiv:2501.13951v2 宣告类型: replace-cross
摘要:长形式的心理健康评估对大型语言模型(LLMs)提出了独特的挑战,这些模型在处理扩展的、领域特定背景时经常出现幻觉或不一致的推理。我们引入了分层多模型推理(SMMR),这是一种利用多个LLMs和专门的小型模型作为平等的“专家”的分层框架。早期层隔离简短的、离散的子任务,而后续层则通过更先进的长上下文模型整合和改进这些部分输出。我们在DAIC-WOZ抑郁筛查数据集和48个精选的精神疾病病例研究上评估了SMMR,结果表明,在准确率、F1分数和PHQ-8误差减少方面,SMMR相对于单模型基线模型表现出了一致的改进。通过利用多样化的“第二意见”,SMMR减轻了幻觉,捕捉到了细微的临床差异,并提高了在高风险心理健康评估中的可靠性。我们的研究结果强调了多专家框架对于更可信的AI驱动筛查的价值。