LLM2D
可逆视觉蕴含:基准、评估器和奖励驱动优化
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization
作者: Yue Zhang, Liqiang Jing, Vibhav Gogate
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2412.16232v3

摘要

arXiv:2412.16232v3 任务类型: 替换-交叉 摘要: 我们介绍了一个新的任务,称为可反驳视觉蕴含 (DVE),其目标是在基于附加更新的情况下,允许修改图像前提与文本假设之间的蕴含关系。虽然在自然语言推理中这一概念已经建立,但在视觉蕴含中仍然没有被探索。从宏观上看,DVE 使模型能够细化其初始解释,从而在检测图像中的误导信息、增强视觉问答以及在自主系统中改善决策过程等方面提高准确性和可靠性。现有的度量标准未能充分捕捉由更新带来的蕴含关系的变化。为了解决这一问题,我们提出了一种新颖的推理意识评估器,该评估器使用成对对比学习和类别信息学习来捕获由更新引起的蕴含强度的变化。此外,我们引入了一种基于奖励的学习方法,以进一步提高多模态模型生成的更新质量。实验结果证明了我们提出评估器和优化方法的有效性。