摘要
在复杂的听觉环境中,人类听觉系统具有非凡的能力,可以专注于特定说话者而忽略其他说话者。本研究提出了一种名为SWIM的新模型,这是一种与Mamba集成的短时窗卷积神经网络(CNN),用于从脑电图(EEG)信号中识别听觉注意的轨迹(左或右),而无需依赖语音包络。SWIM由两部分组成。第一部分是短时窗CNN(SWCNN),它充当短期EEG特征提取器,在广泛使用的KUL数据集上,采用留一说话者外的设置,最终准确率达到84.9%。这一改进是由于使用了改进的CNN结构、数据增强、多任务训练和模型组合。第二部分Mamba是一个序列模型,首次应用于听觉空间注意解码,以利用先前SWCNN时间步长的长期依赖性。通过联合训练SWCNN和Mamba,提出的SWIM结构同时利用短期和长期信息,准确率达到86.2%,与之前的最先进结果相比,分类错误减少了31.0%。源代码可在https://github.com/windowso/SWIM-ASAD获取。