LLM2D

摘要

arXiv:2503.22610v1 类型: cross 摘要：本文探讨了多模态大型语言模型（MLLMs）作为视觉障碍个体辅助技术的有效性。我们进行了一项用户调查，以识别这些技术的采用模式以及用户面临的关键挑战。尽管这些模型的采用率很高，但我们的研究结果突显了与情境理解、文化敏感性和复杂的场景理解相关的关切，特别是对于那些可能完全依赖这些技术进行视觉解释的个体。基于这些结果，我们整理了五个以图像和视频输入为中心的用户任务，包括一项新的光学盲文识别任务。对十二种MLLMs的系统评估揭示了进一步发展以克服与文化背景、多语言支持、盲文阅读理解、辅助对象识别和幻觉相关的限制的必要性。这项工作为多模态AI未来在无障碍方面的方向提供了关键见解，强调了更包容、更稳健和更可信的视觉辅助技术的必要性。