摘要
arXiv:2504.01589v1 类型: cross
摘要:视觉语言模型(VLMs)在处理多模态信息方面取得了快速进展,但它们在处理不同模态之间的冲突信号方面的能力仍然没有得到充分探索。这项工作研究了VLMs如何处理ASCII艺术,这是一种独特的方式,其中文本元素共同形成视觉图案,可能会导致语义-视觉冲突。我们引入了一种新的评估框架,系统地挑战了五种最先进的模型(包括GPT-4o、Claude和Gemini),使用对抗性的ASCII艺术,其中字符级别的语义故意与全局视觉模式相矛盾。我们的实验揭示了强烈的文本优先偏差:VLMs始终优先处理文本信息而非视觉模式,随着语义复杂性的增加,视觉识别能力急剧下降。通过视觉参数调整和提示工程的各种缓解尝试仅取得了轻微的改善,这表明这一限制需要在架构层面进行解决。这些发现揭示了当前VLMs在整合多模态信息方面的根本问题,为未来的模型开发提供了重要的指导,同时突显了内容审核系统在对抗性示例面前的重要意义。