摘要
arXiv:2502.00711v1 类型: cross
摘要:视觉推理是指解决关于视觉信息的问题的任务。当前的视觉推理方法通常采用预训练的视觉-语言模型(VLM)策略或深度神经网络方法。然而,现有努力受到可解释性推理有限的限制,同时受问题文本中含义不足现象的阻碍。此外,缺乏精细的视觉知识限制了视觉推理任务中对主题行为的精确理解。为了解决这些问题,我们提出了一种名为 VIKSER(视觉知识驱动的自我增强推理框架)的方法。具体来说,VIKSER 利用大规模语言模型的知识蒸馏,借助视觉关系检测技术提取精细的视觉知识。随后,VIKSER 利用精细的视觉知识来重新表述含义不足的问题。此外,我们设计了一种名为 Chain-of-Evidence(CoE)的新型提示方法,利用“推理证据”的力量赋予 VIKSER 可解释的推理能力。同时,自我反思技术的结合赋予了 VIKSER 从错误中学习和改进的能力。在广泛使用的数据集上进行的实验表明,VIKSER 在相关任务中实现了新的最佳结果。