摘要
arXiv:2405.03280v2 通知类型: 交叉替换
摘要: 从大脑活动重建人类动态视觉是一项具有重大科学意义的挑战性任务。尽管先前的视频重建方法已取得显著进展,但它们仍然存在一些局限性,包括:(1) 同时协调语义(例如分类描述)、结构(例如大小和颜色)和一致运动信息(例如帧的顺序)的困难;(2) 磁共振成像(fMRI)的时间分辨率较低,这为从单个fMRI帧解码视频动力学的多帧带来了挑战;(3) 依赖于视频生成模型,这引入了关于在重建视频中观察到的动力学是否真正源自fMRI数据,还是生成模型产生的幻觉的不确定性。为克服这些局限,我们提出了一种名为Mind-Animator的两阶段模型。在fMRI到特征阶段,我们从fMRI中解耦语义、结构和运动特征。具体而言,我们使用fMRI-视觉-语言三模态对比学习来从fMRI中解码语义特征,并设计稀疏因 alan 关注机制以通过下一帧预测任务解码多帧视频运动特征。在特征到视频阶段,通过使用放大的稳定扩散模型将这些特征集成到视频中,有效消除了外部视频数据的干扰。在多个视频-fMRI数据集上的广泛实验表明,我们的模型达到了最先进的性能。全面的可视化分析进一步从神经生物学角度阐明了我们模型的可解释性。项目页面: https://mind-animator-design.github.io/.