LLM2D
文本比视觉更具表现力:ASCII艺术揭示了视觉语言模型中的文本偏见
Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models
作者: Zhaochen Wang, Bryan Hooi, Yiwei Wang, Ming-Hsuan Yang, Zi Huang, Yujun Cai
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.01589v2

摘要

arXiv:2504.01589v2 Announce Type: replace-cross 摘要:视觉语言模型(VLMs)在处理多模态信息方面取得了快速进展,但它们在解决跨模态冲突信号方面的能力仍然鲜有探索。这项工作探讨了VLMs处理ASCII艺术的方式,ASCII艺术是一种独特的媒介,其中文本元素共同形成视觉图案,可能创建语义-视觉冲突。我们引入了一种新的评估框架,系统地使用对抗性ASCII艺术挑战五种当前最先进的模型(包括GPT-4o、Claude和Gemini),其中字符级别的语义故意与全局视觉模式相矛盾。我们的实验揭示了强烈的文本优先偏见:VLMs始终优先处理文本信息而非视觉模式,随着语义复杂性的增加,视觉识别能力急剧下降。通过视觉参数调整和提示工程的各种缓解尝试仅提供了适度的改善,这表明这种局限性需要在架构层面上找到解决方案。这些发现揭示了当前VLMs在整合多模态信息方面的一些根本缺陷,为未来模型开发提供了重要的指导,同时强调了对抗性示例易受攻击的内容管理系统所面临的重大影响。