摘要
arXiv:2504.01589v2 Announce Type: replace-cross
摘要:视觉语言模型(VLMs)在处理多模态信息方面取得了快速进展,但它们在解决跨模态冲突信号方面的能力仍然鲜有探索。这项工作探讨了VLMs处理ASCII艺术的方式,ASCII艺术是一种独特的媒介,其中文本元素共同形成视觉图案,可能创建语义-视觉冲突。我们引入了一种新的评估框架,系统地使用对抗性ASCII艺术挑战五种当前最先进的模型(包括GPT-4o、Claude和Gemini),其中字符级别的语义故意与全局视觉模式相矛盾。我们的实验揭示了强烈的文本优先偏见:VLMs始终优先处理文本信息而非视觉模式,随着语义复杂性的增加,视觉识别能力急剧下降。通过视觉参数调整和提示工程的各种缓解尝试仅提供了适度的改善,这表明这种局限性需要在架构层面上找到解决方案。这些发现揭示了当前VLMs在整合多模态信息方面的一些根本缺陷,为未来模型开发提供了重要的指导,同时强调了对抗性示例易受攻击的内容管理系统所面临的重大影响。