摘要
arXiv:2502.09211v1 宣告类型: 新
摘要: 视觉问答(VQA)是一个具有挑战性的问题,它需要处理多模态输入。答案集程序(ASP)在这方面显示出了很大的潜力,能够为模块化VQA架构增加解释性和可解释性。在本文中,我们探讨了如何将ASP与视觉和自然语言处理的模块结合,以解决一种新的、具有挑战性的VQA变体,该变体关注的是图(而不是符号形式的图)的图像。包含基于图结构的图像是一种普遍且流行的可视化形式。在这里,我们处理了由公共交通网络启发的特定问题,并引入了一个新的数据集,该数据集修正了一个现有数据集,添加了类似于地铁线路的图的图像。我们的模块化神经符号方法结合了光学图识别进行图解析,预训练的光学字符识别神经网络进行标签解析,大型语言模型(LLMs)进行语言处理,以及ASP进行推理。该方法作为第一个基线,在数据集上的整体平均准确率为73%。我们的评估提供了进一步的证据,表明模块化神经符号系统,特别是结合预训练模型(无需进一步训练和推理中的逻辑编程)具有解决复杂VQA任务的潜力。