LLM2D
创伤千声:建模延长暴露疗法对话的大规模合成数据集
Thousand Voices of Trauma: A Large-Scale Synthetic Dataset for Modeling Prolonged Exposure Therapy Conversations
作者: Suhas BN, Dominik Mattioli, Saeed Abdullah, Rosa I. Arriaga, Chris W. Wiese, Andrew M. Sherrill
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.13955v3

摘要

arXiv:2504.13955v3 宣告类型: replace-cross 摘要:促进心理健康支持的AI系统的发展受到治疗性对话数据有限访问的阻碍,尤其是对于创伤治疗。我们介绍了创伤的千种声音,这是一个基于 PTSD(创伤后应激障碍)暴露疗法协议的合成基准数据集,包含3000次治疗对话。该数据集包括500个独特的案例,每个案例通过六个对话视角来探讨从初始焦虑到峰值痛苦再到情绪处理的治疗过程。我们使用确定性和概率生成方法纳入了多样的人口统计特征(年龄18-80岁,平均年龄49.3岁,49.4%男性,44.4%女性,6.2%非二元性别),20种创伤类型,以及10种创伤相关行为。分析结果显示,真实合理的创伤类型分布(目击暴力10.6%,欺凌10.2%),症状分布(噩梦23.4%,物质滥用20.8%)。临床专家验证了数据集的治疗性准确性,同时强调其情感深度,并建议更进一步的改进以增强其真实性。我们还开发了一个情感轨迹基准,其中包含标准化指标,用于评估模型的响应。这个保护隐私的数据集弥补了创伤导向的心理健康数据的关键空白,为改进面向患者的应用程序和临床培训工具提供了宝贵的资源。