LLM2D
GenVP:使用对比层次VAEs生成视觉谜题
GenVP: Generating Visual Puzzles with Contrastive Hierarchical VAEs
作者: Kalliopi Basioti, Pritish Sahu, Qingze Tony Liu, Zihao Xu, Hao Wang, Vladimir Pavlovic
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23598v1

摘要

arXiv:2503.23598v1 生成类型: 新 摘要: Raven's Progressive Matrices (RPMs) 是一个已建立的标准基准,用于检验进行高级抽象视觉推理(AVR)的能力。尽管当前解决此任务的算法已经取得了成功,但人类可以在给定的一个谜题之外进行泛化,并且在给定一套规则的情况下创作新的谜题,而机器仍然局限于解决从策划选择列表中固定下来的谜题。我们提出了一种生成视觉谜题(GenVP)的框架,以模拟整个 RPM 生成过程,这是一个显著更具挑战性的任务。我们的模型的能力涵盖了为一个特定的问题提示生成多个解决方案,到根据特定规则集创作全新的谜题。在五个不同数据集上的实验表明,GenVP 在谜题解决准确性和 22 种离分布(OOD)泛化场景中的性能均达到当前最先进的(SOTA)水平。与当前最先进的生成方法相比,当可行解的空间增加时,GenVP 能够更有效地泛化到这些具有挑战性的设置。此外,我们的模型展示了根据一些抽象规则有效捕捉抽象规则与视觉对象属性之间的关系,从而生成一系列完整的 RPM 的能力。