LLM2D

摘要

arXiv:2412.16232v2 通知类型: replace-cross 摘要: 我们介绍了一个新的任务称为可反驳视觉蕴含(DVE)，目标是在基于额外更新的条件下，允许修改图像前提与文本假设之间的蕴含关系。虽然这一概念在自然语言推理中已有很好的确立，但在视觉蕴含中仍处于未被探索的领域。从宏观上来说，DVE 允许模型对其初始解释进行修正，这将提高诸如检测图像中的误导性信息、增强视觉问答以及在自主系统中细化决策过程等多种应用中的准确性和可靠性。当前的评估指标并不能充分捕捉由更新带来的蕴含关系的变化。为解决这一问题，我们提出了一种新的感知推理评估器，用于捕捉由更新引起的蕴含强度变化，该评估器采用了成对对比学习和分类信息学习。此外，我们还引入了一种奖励驱动的更新优化方法，以进一步提升由多模态模型生成的更新质量。实验结果表明，我们提出的评估器和优化方法的有效性。