LLM2D

摘要

arXiv:2502.09211v1 宣告类型: 新摘要: 视觉问答（VQA）是一个具有挑战性的问题，它需要处理多模态输入。答案集程序（ASP）在这方面显示出了很大的潜力，能够为模块化VQA架构增加解释性和可解释性。在本文中，我们探讨了如何将ASP与视觉和自然语言处理的模块结合，以解决一种新的、具有挑战性的VQA变体，该变体关注的是图（而不是符号形式的图）的图像。包含基于图结构的图像是一种普遍且流行的可视化形式。在这里，我们处理了由公共交通网络启发的特定问题，并引入了一个新的数据集，该数据集修正了一个现有数据集，添加了类似于地铁线路的图的图像。我们的模块化神经符号方法结合了光学图识别进行图解析，预训练的光学字符识别神经网络进行标签解析，大型语言模型（LLMs）进行语言处理，以及ASP进行推理。该方法作为第一个基线，在数据集上的整体平均准确率为73%。我们的评估提供了进一步的证据，表明模块化神经符号系统，特别是结合预训练模型（无需进一步训练和推理中的逻辑编程）具有解决复杂VQA任务的潜力。