摘要
arXiv:2504.21214v1 交叉公告类型
摘要:本文探索了在活动脑-计算机接口(BCI)系统中无声语音解码,这些系统提供了比传统BCI应用更自然和灵活的通信方式。我们收集了一个新的无声语音数据集,包含来自12名受试者的超过120小时的脑电图(EEG)记录,这些记录捕捉了24个常用英语单词,用于语言模型的预训练和解码。受到使用自监督范式预训练大型模型以增强EEG分类性能的最近成功启发,我们提出了一个名为大型大脑语言模型(LBLM)的新模型,该模型预训练以解码活动BCI中的无声语音。为预训练LBLM,我们提出了未来时间-频谱预测(FSTP)预训练范式,以从未标记的EEG数据中学习有效的表示。与现有主要遵循遮蔽重建范式的EEG预训练方法不同,我们提出的FSTP方法在时间域和频域中采用自回归建模,以捕捉EEG信号中的时间和频谱依赖性。经过预训练后,我们针对包括词级和语义级分类在内的下游任务微调了我们的LBLM。广泛的实验表明,LBLM在未完全监督和预训练基线模型上的性能显著提升。例如,在困难的跨会话设置中,我们的模型在语义级分类中的准确率为47.0%,在词级分类中的准确率为39.6%,分别比基线方法高出5.4%和7.3%。我们的研究推进了活动BCI系统中的无声语音解码,提供了一种创新的EEG语言模型预训练解决方案,并为基础研究提供了一个新的数据集。