LLM2D
合成治疗对话有多真实?评估持续曝光对话的真实性
How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues
作者: Suhas BN, Dominik Mattioli, Saeed Abdullah, Rosa I. Arriaga, Chris W. Wiese, Andrew M. Sherrill
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21800v1

摘要

arXiv:2504.21800v1 标题类型: cross 摘要:合成数据在医疗保健领域的广泛应用受到隐私担忧、对真实世界数据访问受限以及标注成本高昂的驱动。本文探讨了使用合成延长暴露(PE)治疗性对话治疗创伤后应激障碍(PTSD)作为训练和评估临床模型的可扩展替代方案。我们系统地比较了真实和合成对话,利用语言学、结构和协议特定的度量标准进行了比较,包括轮流模式和治疗 fidelity。我们还引入并评估了基于语言分析和语义建模的PE特定度量标准,提供了一个超越表面流畅性的临床 fidelity评估框架。我们的研究发现,尽管合成数据有潜力缓解数据稀缺问题并保护患者隐私,但它在捕捉治疗互动的细微动态方面存在困难。在我们的数据集中,合成对话在结构特征上与真实对话相匹配(例如,讲话人轮换比例:0.98 vs. 0.99),但合成互动未能充分反映关键 fidelity指标(例如,压力监测)。我们指出了现有评估框架的不足之处,并倡导一种超越表面流畅性的 fidelity 意识度量标准,以揭示临床上重要的失败。我们的研究结果阐明了合成数据在哪些方面可以有效补充真实世界数据集——以及哪些关键限制仍然存在。