LLM2D
Dreamweaver:从像素中学习 compositional 世界模型
Dreamweaver: Learning Compositional World Models from Pixels
作者: Junyeob Baek, Yi-Fu Wu, Gautam Singh, Sungjin Ahn
发布日期: 4/11/2025
arXiv ID: oai:arXiv.org:2501.14174v5

摘要

arXiv:2501.14174v5 宣告类型: replace-cross 摘要:人类天生拥有将对世界的感知分解为物体及其属性的能力,如颜色、形状和运动模式。这一认知过程使我们能够通过重组熟悉的概念来想象新的未来。然而,在人工智能系统中复制这种能力极具挑战性,尤其是在将视频建模为组合性概念,并生成前所未见、重组后的未来方面,尤其是在无需依赖辅助数据(如文本、遮罩或边界框)的情况下。在本文中,我们提出了 Dreamweaver,一种神经架构,旨在从原始视频中发现层次化的和组合性的表示,并生成组合性的未来模拟。我们的方法利用了新颖的循环块槽单元(RBSU)来分解视频为其构成的物体和属性。此外,Dreamweaver 使用多未来帧预测目标,以更有效地捕捉动态概念和静态概念的独立表示。在实验中,我们在 DCI 框架下使用多个数据集评估我们的模型时,证明我们的模型在世界建模方面优于当前最先进的基线。此外,我们展示了我们模型模块化概念表示的组合性想象能力,使得由先前观察到的对象的属性重新组合生成新颖的视频成为可能。cun-bjy.github.io/dreamweaver-website