LLM2D

摘要

arXiv:2504.03695v1 类型: cross 摘要: 恐惧诱发的活动，如公共演讲，可能会在焦虑障碍患者中引发加剧的焦虑反应。近期研究提示，通过穿戴设备收集的心电图(ECG)和皮肤电活动(EDA)等生理信号，可以通过机器学习模型在这些情境下检测到焦虑。然而，在不同活动和广泛人群中这些焦虑预测模型的一致性仍较少被探究——这是评估模型偏差和在更广泛应用中培养用户信任的必要步骤。为应对这一空白，我们对111名参与者进行了三项恐惧诱发活动的研究。利用我们收集的数据集以及两个广泛可用的公开数据集，我们评估了参与者内部(同活动和跨活动场景)以及参与者之间(同活动和跨活动)焦虑检测模型的一致性。总共，我们训练和测试了超过3348个焦虑检测模型(使用六种分类器，31个特征集，和18种训练-测试配置)。我们的结果显示，三个关键指标-AUROC、焦虑状态的召回率和非焦虑状态的召回率——略高于基线分数0.5。最佳AUROC分数范围为0.62至0.73，焦虑类别召回率范围为35.19%至74.3%。有趣的是，模型性能(以AUROC衡量)在不同活动和参与者组之间保持相对稳定，尽管焦虑类别召回率显示了一些变化。