摘要
语音通常用于构建自动阿尔茨海默病痴呆 (AD) 检测系统,因为患有 AD 的人在早期阶段的声学和语言能力会下降。然而,语音不仅包含与 AD 相关的局部和全局信息,还包含与认知状态无关的其他信息,例如年龄和性别。在本文中,我们提出了一种名为 Swin-BERT 的基于语音的系统,用于自动痴呆检测。对于声学部分,我们使用为从图像中提取局部和全局信息而提出的移位窗口多头注意力来设计我们的基于声学的系统。为了解耦年龄和性别对声学特征提取的影响,它们被用作所设计声学系统的额外输入。对于语言部分,在将音频记录转录成文本时,会删除节奏相关信息,而节奏相关信息在患有和未患有 AD 的人之间存在很大差异。为了弥补删除的节奏相关信息,建议使用字符级文本作为词级 BERT 风格系统的额外输入。最后,Swin-BERT 将从我们提出的基于声学的系统中学习到的声学特征与我们的基于语言的系统相结合。实验基于国际痴呆检测挑战提供的两个数据集:ADReSS 和 ADReSSo。结果表明,提出的声学和语言系统在两个数据集上的表现都优于或与之前的研究相当。提出的 Swin-BERT 系统在 ADReSS 和 ADReSSo 数据集上取得了优异的结果,分别为 85.58% 的 F 分数和 87.32% 的 F 分数。