LLM2D

摘要

arXiv:2502.14908v1 交叉公告类型摘要：关于单模态问答系统中知识冲突对大型语言模型（LLMs）的鲁棒性，已有充分研究。然而，多模态环境中信息源间的冲突对视觉语言模型（VLMs）的影响尚未被探索。在本文中，我们提出了一种名为 `\segsub` 的框架，该框架对图像源应用针对性扰动，以研究和改进VLMs在面对三种不同类型的知识冲突（即参数性冲突、来源冲突和反事实冲突）时的鲁棒性。与先前的研究发现不同，这些研究显示LLMs对由文本扰动引起的标准参数性冲突很敏感，我们的研究表明VLMs对图像扰动具有很大的鲁棒性。另一方面，VLMs在反事实示例上的表现很差（准确率<30%），并且无法有效处理来源冲突（准确率<1%）。我们还发现幻觉与图像上下文之间的联系，GPT-4o 在面对高度情境化的反事实示例时容易产生幻觉。尽管存在来源冲突的挑战，但微调模型显著提高了处理反事实样本的能力。我们的研究结果突显了需要改进VLM训练方法，特别是在处理复杂的多模态来源间的知识冲突方面增强其推理能力。