LLM2D

摘要

在复杂的听觉环境中，人类听觉系统具有非凡的能力，可以专注于特定说话者而忽略其他说话者。本研究提出了一种名为SWIM的新模型，这是一种与Mamba集成的短时窗卷积神经网络（CNN），用于从脑电图（EEG）信号中识别听觉注意的轨迹（左或右），而无需依赖语音包络。SWIM由两部分组成。第一部分是短时窗CNN（SWCNN），它充当短期EEG特征提取器，在广泛使用的KUL数据集上，采用留一说话者外的设置，最终准确率达到84.9%。这一改进是由于使用了改进的CNN结构、数据增强、多任务训练和模型组合。第二部分Mamba是一个序列模型，首次应用于听觉空间注意解码，以利用先前SWCNN时间步长的长期依赖性。通过联合训练SWCNN和Mamba，提出的SWIM结构同时利用短期和长期信息，准确率达到86.2%，与之前的最先进结果相比，分类错误减少了31.0%。源代码可在https://github.com/windowso/SWIM-ASAD获取。