LLM2D

摘要

arXiv:2504.13211v1 交叉公告类型摘要：最近的研究探讨了在心理治疗中使用大型语言模型（LLMs）的应用；然而，基于文本的认知行为疗法（CBT）模型常常难以应对来访者的抗拒，这会削弱治疗联盟。为了解决这一问题，我们提出了一种多模态方法，该方法整合了非言语线索，使AI治疗师能够更好地与其来访者的消极情感状态保持一致。具体来说，我们引入了一个新的合成数据集——Multimodal Interactive Rolling with Resistance (Mirror)，这是一个新的合成数据集，将来访者的陈述与其相应的面部图像配对。利用这个数据集，我们训练了基础的视觉-语言模型（VLMs），这些模型能够分析面部线索、推断情绪，并生成同理心的回应以有效地管理抗拒。随后，我们在来访者抗拒存在的情况下，从治疗师的咨询技巧和治疗联盟的强度两个方面评估了这些模型。我们的结果显示，Mirror 显著增强了AI治疗师处理抗拒的能力，这优于现有的基于文本的CBT方法。