LLM2D
KOALA: 知识冲突增强以提高视觉语言模型的鲁棒性
KOALA: Knowledge Conflict Augmentations for Robustness in Vision Language Models
作者: Peter Carragher, Nikitha Rao, Abhinand Jha, R Raghav, Kathleen M. Carley
发布日期: 2/24/2025
arXiv ID: oai:arXiv.org:2502.14908v1

摘要

arXiv:2502.14908v1 交叉公告类型 摘要:关于单模态问答系统中知识冲突对大型语言模型(LLMs)的鲁棒性,已有充分研究。然而,多模态环境中信息源间的冲突对视觉语言模型(VLMs)的影响尚未被探索。在本文中,我们提出了一种名为 `\segsub` 的框架,该框架对图像源应用针对性扰动,以研究和改进VLMs在面对三种不同类型的知识冲突(即参数性冲突、来源冲突和反事实冲突)时的鲁棒性。与先前的研究发现不同,这些研究显示LLMs对由文本扰动引起的标准参数性冲突很敏感,我们的研究表明VLMs对图像扰动具有很大的鲁棒性。另一方面,VLMs在反事实示例上的表现很差(准确率<30%),并且无法有效处理来源冲突(准确率<1%)。我们还发现幻觉与图像上下文之间的联系,GPT-4o 在面对高度情境化的反事实示例时容易产生幻觉。尽管存在来源冲突的挑战,但微调模型显著提高了处理反事实样本的能力。我们的研究结果突显了需要改进VLM训练方法,特别是在处理复杂的多模态来源间的知识冲突方面增强其推理能力。