LLM2D

摘要

arXiv:2504.21214v2 Announce Type: replace-cross 摘要：本文探讨了在主动脑-机接口（BCI）系统中无声语音解码的问题，这些系统提供了比传统BCI应用更自然和灵活的通信方式。我们收集了一个新的无声语音数据集，包含了超过120小时的脑电图（EEG）记录，捕捉了用于语言模型预训练和解码的24个常用英语单词。借鉴最近利用自监督范式预训练大模型以提升EEG分类性能的成功经验，我们提出了大型脑语言模型（LBLM），该模型用于主动BCI中的无声语音解码。为预训练LBLM，我们提出了未来频谱-时间预测（FSTP）预训练范式，以从未标记的EEG数据中学习有效的表示。与现有主要遵循遮盖重建范式的EEG预训练方法不同，我们提出的FSTP方法利用了时间域和频域的自回归建模，以捕捉EEG信号中的时间和频谱依赖性。预训练后，我们在下游任务中微调我们的LBLM，包括词级和语义级分类。广泛实验表明，LBLM相较全监督和预训练基线模型具有显著的性能增益。例如，在困难的跨会话设定中，我们的模型在语义级分类上的准确率为47.0%，在词级分类上的准确率为39.6%，分别比基线方法高5.4%和7.3%。我们的研究推进了主动BCI系统中无声语音解码的发展，提供了创新的EEG语言模型预训练解决方案，并为基本研究提供了新的数据集。