LLM2D

摘要

我们研究了一种类人可解释的视频理解模型。人类通过识别视频中显式识别的对象和部分之间的关键时空关系来识别复杂的活动，例如，一个物体进入容器的开口。为了模仿这一点，我们基于一个使用对象和手的位置及其运动来识别正在进行的活动的模型进行构建。为了改进这个模型，我们专注于三个最令人困惑的类别（对于该模型），并确定缺乏3D信息是主要问题。为了解决这个问题，我们通过两种方式扩展了我们的基本模型，增加了3D感知：（1）对最先进的对象检测模型进行了微调，以确定“容器”和“非容器”之间的差异，以便将对象形状信息整合到现有的对象特征中。（2）使用最先进的深度估计模型来提取单个对象的深度值，并计算深度关系，以扩展我们可解释模型中使用的现有关系。这些3D扩展在我们的基本模型上进行了评估，评估对象是Something-Something-v2数据集中三个表面上相似的“放置”动作的子集。结果显示，容器检测器并没有提高性能，但深度关系的增加显著提高了性能。