LLM2D

摘要

arXiv:2409.14021v1 公告类型: 交叉摘要: 我们能否直接将我们脑海中的想象与我们所描述的内容一起可视化？人类感知的本质揭示了，当我们思考时，我们的身体能够结合语言描述，并在我们的大脑中构建出生动的画面。直观上，生成模型也应该具备这种多功能性。在本文中，我们介绍了BrainDreamer，一种新颖的端到端语言引导生成框架，能够模仿人类推理并从脑电图（EEG）脑信号生成高质量图像。我们的方法在消除非侵入性EEG数据采集引入的噪声方面具有优势，同时实现了EEG与图像模态之间更精确的映射，从而生成显著更好的图像。具体而言，BrainDreamer包括两个关键学习阶段：1）模态对齐和2）图像生成。在对齐阶段，我们提出了一种新颖的基于掩码的三重对比学习策略，以有效对齐EEG、文本和图像嵌入，学习统一的表示。在生成阶段，我们通过设计一个可学习的EEG适配器，将EEG嵌入注入预训练的Stable Diffusion模型，生成高质量的推理一致性图像。此外，BrainDreamer可以接受文本描述（例如颜色、位置等），以实现可控的图像生成。广泛的实验表明，我们的方法在生成质量和定量性能方面显著优于先前的技术。