摘要
arXiv:2504.21214v2 Announce Type: replace-cross
摘要:本文探讨了在主动脑-机接口(BCI)系统中无声语音解码的问题,这些系统提供了比传统BCI应用更自然和灵活的通信方式。我们收集了一个新的无声语音数据集,包含了超过120小时的脑电图(EEG)记录,捕捉了用于语言模型预训练和解码的24个常用英语单词。借鉴最近利用自监督范式预训练大模型以提升EEG分类性能的成功经验,我们提出了大型脑语言模型(LBLM),该模型用于主动BCI中的无声语音解码。为预训练LBLM,我们提出了未来频谱-时间预测(FSTP)预训练范式,以从未标记的EEG数据中学习有效的表示。与现有主要遵循遮盖重建范式的EEG预训练方法不同,我们提出的FSTP方法利用了时间域和频域的自回归建模,以捕捉EEG信号中的时间和频谱依赖性。预训练后,我们在下游任务中微调我们的LBLM,包括词级和语义级分类。广泛实验表明,LBLM相较全监督和预训练基线模型具有显著的性能增益。例如,在困难的跨会话设定中,我们的模型在语义级分类上的准确率为47.0%,在词级分类上的准确率为39.6%,分别比基线方法高5.4%和7.3%。我们的研究推进了主动BCI系统中无声语音解码的发展,提供了创新的EEG语言模型预训练解决方案,并为基本研究提供了新的数据集。