LLM2D

摘要

从 fMRI 信号进行视觉解码的研究工作在研究界引起了极大的关注。然而，由于不同受试者之间以及同一受试者在不同试验中 fMRI 信号的巨大差异，多受试者 fMRI 解码一直被认为是难以解决的问题。为了解决多受试者脑解码的当前局限性，我们在这里介绍了一种使用名为 MindFormer 的多受试者 fMRI 信号语义对齐的新方法。该模型专门设计用于生成 fMRI 条件特征向量，这些特征向量可以用于调节 Stable Diffusion 模型进行 fMRI 到图像生成或调节大型语言模型 (LLM) 进行 fMRI 到文本生成。更具体地说，MindFormer 包含两个关键创新：1) 一个特定于受试者的标记，有效地捕获 fMRI 信号的个体差异，同时协同组合多受试者 fMRI 数据进行训练；2) 一种基于 IP-Adapter 的新型特征嵌入和训练方案，用于从 fMRI 信号中提取语义上有意义的特征。我们的实验结果表明，MindFormer 在不同受试者之间生成了语义一致的图像和文本。由于我们的 MindFormer 通过充分利用不同受试者之间的训练数据来保持语义保真度，并且在多受试者脑解码方面显著优于现有模型，这可能有助于我们更深入地了解个体之间神经处理的变化。