摘要
arXiv:2403.17428v2 通知类型: 替换
摘要:背景:大型语言模型(LLMs)的进步为精神科面谈开辟了新的可能性,在这个尚未充分探索的领域中,LLMs可能会很有价值。本研究集中在通过分析来自经历过创伤和心理健康问题的朝鲜难民的咨询数据来增强精神科面谈。
目标:研究探讨LLMs能否(1)识别表明精神症状的部分对话,并识别这些症状,以及(2)根据面谈记录总结应激源和症状。
方法:要求LLMs(1)从记录中提取应激源,(2)识别症状及其对应的段落,并(3)使用提取的数据生成面谈摘要。记录由心理健康专家进行标注以供训练和评估。
结果:在使用GPT-4 Turbo的零样本推理设置中,102个片段中有73个片段在识别症状相关段落时显示中令牌距离d<20的召回率。在识别特定症状方面,微调优于零样本推理,准确度、精确度、召回率和F1分数分别为0.82。对于生成性摘要任务,使用症状和应激源信息的LLMs在G-Eval指标上的得分很高:连贯性(4.66)、一致性(4.73)、流畅性(2.16)和相关性(4.67)。检索增强生成未显示出显著的性能提升。
结论:通过微调或适当的提示,LLMs在症状界定方面表现出强精度(超过0.8),并在总结中达到了4.6+的连贯性。本研究凸显了它们在协助心理健康从业者分析精神病学面谈方面的潜力。