LLM2D

摘要

arXiv:2501.14174v5 宣告类型: replace-cross 摘要：人类天生拥有将对世界的感知分解为物体及其属性的能力，如颜色、形状和运动模式。这一认知过程使我们能够通过重组熟悉的概念来想象新的未来。然而，在人工智能系统中复制这种能力极具挑战性，尤其是在将视频建模为组合性概念，并生成前所未见、重组后的未来方面，尤其是在无需依赖辅助数据（如文本、遮罩或边界框）的情况下。在本文中，我们提出了 Dreamweaver，一种神经架构，旨在从原始视频中发现层次化的和组合性的表示，并生成组合性的未来模拟。我们的方法利用了新颖的循环块槽单元（RBSU）来分解视频为其构成的物体和属性。此外，Dreamweaver 使用多未来帧预测目标，以更有效地捕捉动态概念和静态概念的独立表示。在实验中，我们在 DCI 框架下使用多个数据集评估我们的模型时，证明我们的模型在世界建模方面优于当前最先进的基线。此外，我们展示了我们模型模块化概念表示的组合性想象能力，使得由先前观察到的对象的属性重新组合生成新颖的视频成为可能。cun-bjy.github.io/dreamweaver-website