LLM2D

摘要

arXiv:2504.01589v2 Announce Type: replace-cross 摘要：视觉语言模型（VLMs）在处理多模态信息方面取得了快速进展，但它们在解决跨模态冲突信号方面的能力仍然鲜有探索。这项工作探讨了VLMs处理ASCII艺术的方式，ASCII艺术是一种独特的媒介，其中文本元素共同形成视觉图案，可能创建语义-视觉冲突。我们引入了一种新的评估框架，系统地使用对抗性ASCII艺术挑战五种当前最先进的模型（包括GPT-4o、Claude和Gemini），其中字符级别的语义故意与全局视觉模式相矛盾。我们的实验揭示了强烈的文本优先偏见：VLMs始终优先处理文本信息而非视觉模式，随着语义复杂性的增加，视觉识别能力急剧下降。通过视觉参数调整和提示工程的各种缓解尝试仅提供了适度的改善，这表明这种局限性需要在架构层面上找到解决方案。这些发现揭示了当前VLMs在整合多模态信息方面的一些根本缺陷，为未来模型开发提供了重要的指导，同时强调了对抗性示例易受攻击的内容管理系统所面临的重大影响。