LLM2D

摘要

arXiv:2504.21214v1 交叉公告类型摘要：本文探索了在活动脑-计算机接口(BCI)系统中无声语音解码，这些系统提供了比传统BCI应用更自然和灵活的通信方式。我们收集了一个新的无声语音数据集，包含来自12名受试者的超过120小时的脑电图(EEG)记录，这些记录捕捉了24个常用英语单词，用于语言模型的预训练和解码。受到使用自监督范式预训练大型模型以增强EEG分类性能的最近成功启发，我们提出了一个名为大型大脑语言模型（LBLM）的新模型，该模型预训练以解码活动BCI中的无声语音。为预训练LBLM，我们提出了未来时间-频谱预测（FSTP）预训练范式，以从未标记的EEG数据中学习有效的表示。与现有主要遵循遮蔽重建范式的EEG预训练方法不同，我们提出的FSTP方法在时间域和频域中采用自回归建模，以捕捉EEG信号中的时间和频谱依赖性。经过预训练后，我们针对包括词级和语义级分类在内的下游任务微调了我们的LBLM。广泛的实验表明，LBLM在未完全监督和预训练基线模型上的性能显著提升。例如，在困难的跨会话设置中，我们的模型在语义级分类中的准确率为47.0%，在词级分类中的准确率为39.6%，分别比基线方法高出5.4%和7.3%。我们的研究推进了活动BCI系统中的无声语音解码，提供了一种创新的EEG语言模型预训练解决方案，并为基础研究提供了一个新的数据集。