摘要
arXiv:2409.14021v1 公告类型: 交叉 摘要: 我们能否直接将我们脑海中的想象与我们所描述的内容一起可视化?人类感知的本质揭示了,当我们思考时,我们的身体能够结合语言描述,并在我们的大脑中构建出生动的画面。直观上,生成模型也应该具备这种多功能性。在本文中,我们介绍了BrainDreamer,一种新颖的端到端语言引导生成框架,能够模仿人类推理并从脑电图(EEG)脑信号生成高质量图像。我们的方法在消除非侵入性EEG数据采集引入的噪声方面具有优势,同时实现了EEG与图像模态之间更精确的映射,从而生成显著更好的图像。具体而言,BrainDreamer包括两个关键学习阶段:1)模态对齐和2)图像生成。在对齐阶段,我们提出了一种新颖的基于掩码的三重对比学习策略,以有效对齐EEG、文本和图像嵌入,学习统一的表示。在生成阶段,我们通过设计一个可学习的EEG适配器,将EEG嵌入注入预训练的Stable Diffusion模型,生成高质量的推理一致性图像。此外,BrainDreamer可以接受文本描述(例如颜色、位置等),以实现可控的图像生成。广泛的实验表明,我们的方法在生成质量和定量性能方面显著优于先前的技术。