LLM2D
评估针对视障用户的多模态语言模型视觉辅助功能
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users
作者: Antonia Karamolegkou, Malvina Nikandrou, Georgios Pantazopoulos, Danae Sanchez Villegas, Phillip Rust, Ruchira Dhar, Daniel Hershcovich, Anders S{\o}gaard
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2503.22610v1

摘要

arXiv:2503.22610v1 类型: cross 摘要:本文探讨了多模态大型语言模型(MLLMs)作为视觉障碍个体辅助技术的有效性。我们进行了一项用户调查,以识别这些技术的采用模式以及用户面临的关键挑战。尽管这些模型的采用率很高,但我们的研究结果突显了与情境理解、文化敏感性和复杂的场景理解相关的关切,特别是对于那些可能完全依赖这些技术进行视觉解释的个体。基于这些结果,我们整理了五个以图像和视频输入为中心的用户任务,包括一项新的光学盲文识别任务。对十二种MLLMs的系统评估揭示了进一步发展以克服与文化背景、多语言支持、盲文阅读理解、辅助对象识别和幻觉相关的限制的必要性。这项工作为多模态AI未来在无障碍方面的方向提供了关键见解,强调了更包容、更稳健和更可信的视觉辅助技术的必要性。