摘要
抽象推理语料库 (ARC) 是一个流行的基准,专注于评估人工智能系统中的视觉推理。在其原始框架中,ARC 任务需要使用少量输入-输出训练对,在小型二维图像上解决程序合成问题。在这项工作中,我们采用最近流行的 ARC 数据驱动方法,并询问视觉转换器 (ViT) 是否可以学习从输入图像到输出图像的隐式映射,该映射是任务的基础。我们表明,即使在每个任务上训练了 100 万个示例,ViT(否则是图像最先进的模型)在大多数 ARC 任务上也惨遭失败。这表明 ViT 架构存在固有的表示缺陷,使其无法发现 ARC 任务背后的简单结构化映射。基于这些见解,我们提出了 ViTARC,这是一种 ViT 风格的架构,它释放了 ARC 所需的一些视觉推理能力。具体来说,我们使用像素级输入表示,设计了一种空间感知标记化方案,并引入了利用自动分割的新型基于对象的方位编码,以及其他增强功能。我们的特定任务 ViTARC 模型在超过 400 个公开 ARC 任务中的一半以上实现了接近 100% 的测试解决率,严格地通过从输入-输出网格的监督学习实现。这引起了人们对赋予强大的 (Vision) Transformer 正确的归纳偏差的重要性,这些偏差对于抽象视觉推理至关重要,即使训练数据充足且映射无噪声。因此,ViTARC 为未来使用基于转换器的架构进行视觉推理的研究提供了坚实的基础。