LLM2D

摘要

arXiv:2502.14883v1 类别: cross 摘要：视觉是人类感知环境的主要方式，但blind和低视力（BLV）人士需要帮助理解他们的周围环境，尤其是在陌生环境中。随着基于语义系统的出现作为BLV用户的辅助工具，许多研究人员开始探索大型视觉-语言模型（LVLMs）的响应。然而，BLV用户对LVLMs多样化类型/风格的响应的偏好，尤其是用于导航辅助方面的偏好，仍然没有被研究。为了填补这一空白，我们首先构建了一个Eye4B数据集，其中包括1100个人类验证的户外/室内场景，每个场景有5-10个相关的请求。然后，我们进行了深入的用户研究，邀请了八位BLV用户从四个方面：恐惧感、非行动性、充足性和简洁性来评估他们对六种LVLMs的偏好。最后，我们引入了一个Eye4B基准，用于评估广泛使用的基于模型的图像-文本度量与我们收集的BLV偏好的对齐情况。我们的工作可以作为开发BLV意识的LVLMs到无障碍人工智能系统的指南。