摘要
arXiv:2502.14883v1 类别: cross
摘要:视觉是人类感知环境的主要方式,但blind和低视力(BLV)人士需要帮助理解他们的周围环境,尤其是在陌生环境中。随着基于语义系统的出现作为BLV用户的辅助工具,许多研究人员开始探索大型视觉-语言模型(LVLMs)的响应。然而,BLV用户对LVLMs多样化类型/风格的响应的偏好,尤其是用于导航辅助方面的偏好,仍然没有被研究。为了填补这一空白,我们首先构建了一个Eye4B数据集,其中包括1100个人类验证的户外/室内场景,每个场景有5-10个相关的请求。然后,我们进行了深入的用户研究,邀请了八位BLV用户从四个方面:恐惧感、非行动性、充足性和简洁性来评估他们对六种LVLMs的偏好。最后,我们引入了一个Eye4B基准,用于评估广泛使用的基于模型的图像-文本度量与我们收集的BLV偏好的对齐情况。我们的工作可以作为开发BLV意识的LVLMs到无障碍人工智能系统的指南。