LLM2D

摘要

arXiv:2406.02659v3 宣告类型: 替换-交叉摘要：虽然计算机视觉模型在静态图像识别方面取得了惊人的进展，但在需要理解复杂动态运动的任务方面，它们仍无法与人类的表现相媲美。特别是在现实世界场景中，具有复杂和动态环境的实体代理面临的情况尤其如此。我们的方法，BrainNRDS（脑-神经动态刺激的表示），利用最先进的视频扩散模型将静态图像表示与动态生成的运动分离，使我们能够利用功能性磁共振成像（fMRI）的大脑活动，对动态视觉刺激引起的人类反应有更深入的理解。相反，我们还证明，关于大脑对运动的表示的信息可以提高人工系统中光流预测的准确性。我们新颖的方法带来了四个主要发现：（1）视觉运动，表现为细粒度的对象级分辨率光流，可以从参与者观看视频刺激时产生的大脑活动解码；（2）视频编码器在预测由视频驱动的大脑活动方面优于基于图像的模型；（3）解码的大脑运动信号使得仅凭视频首帧即可实现逼真的视频复原；（4）我们扩展了以前的工作，实现了从由视频驱动的大脑活动到完整视频解码的全面进展。BrainNRDS 进一步深化了我们对大脑如何在动态视觉场景中表示空间和时间信息的理解。我们的发现展示了将脑成像与视频扩散模型结合在一起开发更稳健和生物启发式计算机视觉系统的技术潜力。我们在此网站上提供了额外的解码和编码示例：https://brain-nrds.github.io/。