LLM2D

摘要

arXiv:2501.14174v2 通知类型: 替换-交叉摘要：人类具有将对世界的感知分解为物体及其属性（如颜色、形状和运动模式）的天然能力。这一认知过程使我们能够通过重新组合熟悉的概念来想象新的未来。然而，在人工智能系统中复制这一能力证明颇具挑战，尤其是在将视频建模为构造型概念以及在不依赖辅助数据（如文本、掩码或边界框）的情况下生成未见过的重新组合未来方面。在本文中，我们提出了一种名为 Dreamweaver 的神经架构，该架构旨在从原始视频中发现层次化和构造型表示并生成构造型未来的模拟。我们的方法利用一种新颖的循环块槽单元（RBSU）将视频分解为其构成的物体和属性。此外，Dreamweaver 使用多未来帧预测目标来更有效地捕捉动态概念和静态概念的分离表示。在实验中，我们展示了当在 DCI 框架下跨多个数据集评估时，我们的模型在世界建模方面优于当前最先进的基线模型。此外，我们展示了我们模型的模块化概念表示如何实现构造型想象，从而使用户能够通过从不同物体重新组合属性来生成新的视频。