LLM2D

摘要

arXiv:2502.00711v1 类型: cross 摘要：视觉推理是指解决关于视觉信息的问题的任务。当前的视觉推理方法通常采用预训练的视觉-语言模型（VLM）策略或深度神经网络方法。然而，现有努力受到可解释性推理有限的限制，同时受问题文本中含义不足现象的阻碍。此外，缺乏精细的视觉知识限制了视觉推理任务中对主题行为的精确理解。为了解决这些问题，我们提出了一种名为 VIKSER（视觉知识驱动的自我增强推理框架）的方法。具体来说，VIKSER 利用大规模语言模型的知识蒸馏，借助视觉关系检测技术提取精细的视觉知识。随后，VIKSER 利用精细的视觉知识来重新表述含义不足的问题。此外，我们设计了一种名为 Chain-of-Evidence（CoE）的新型提示方法，利用“推理证据”的力量赋予 VIKSER 可解释的推理能力。同时，自我反思技术的结合赋予了 VIKSER 从错误中学习和改进的能力。在广泛使用的数据集上进行的实验表明，VIKSER 在相关任务中实现了新的最佳结果。