摘要
arXiv:2505.04488v1 类型:交叉
摘要:目前,视力受损的人口,尤其是严重视力受损的人口数量庞大,日常活动对他们构成了重大挑战。尽管许多研究利用大型语言和语言-视觉模型来帮助盲人,但大多数研究集中在静态内容上,未能在动态和复杂环境中,如日常活动中,满足实时感知需求。为了给他们提供更有效的智能辅助,急需引入先进的视觉理解技术。尽管实时视觉和语音交互 VideoLLMs 在实时视觉理解方面表现出强大的能力,但此前没有研究系统地评估它们在辅助视力受损个体方面的有效性。在这项工作中,我们首次进行了这样的评估。首先,我们构建了一个基准数据集 (VisAssistDaily),涵盖了视力受损个体的三种辅助任务类别:基本技能、家庭生活任务和社会生活任务。结果显示,GPT-4o 实现了最高的任务成功率。接下来,我们进行了一项用户研究,以评估模型在封闭世界和开放世界场景中的表现,进一步探讨了在辅助环境中应用 VideoLLMs 的实际挑战。我们识别的一个关键问题是,当前模型在动态环境中感知潜在威胁的困难。为了解决这个问题,我们构建了一个名为 SafeVid 的环境感知数据集,并引入了一种投票机制,使模型能够主动检测环境风险。我们希望这项工作为该领域的未来研究提供有价值的见解和灵感。