LLM2D

摘要

arXiv:2403.15245v2 公告类型: replace-cross 摘要：以物为中心的学习旨在将复杂的视觉场景分解为更易管理的对象表示，从而增强机器学习系统对物理世界的理解与推理能力。近年来，基于槽的视频模型在分割和追踪对象方面展现了卓越的能力，但忽略了有效推理模块的重要性。在现实世界中，推理和预测能力在人类感知和对象追踪中起着关键作用，尤其是这些能力与人类直觉物理学紧密相关。受到这一启发，我们设计了一个名为基于槽的时间-空间变换器带有记忆缓冲区（STATM）的新推理模块，以增强模型在复杂场景中的感知能力。记忆缓冲区主要用于存储上游模块的槽信息，基于槽的时间-空间变换器通过基于槽的时间-空间注意计算和融合来进行预测。我们在多个数据集上的实验结果表明，STATM模块可以显著增强多个先进以物为中心的学习模型在视频中的能力。此外，作为预测模型，STATM模块在下游预测和视觉问答（VQA）任务中也表现出色。我们将在此处发布我们的代码和数据：https://github.com/intell-sci-comput/STATM。