摘要
arXiv:2504.18027v1 交叉公告类型
摘要:由于自然场景的复杂性,视力障碍人士很难感知周围的环境,因此他们的个人和社会活动受到了极大的限制。本文介绍了一种基于大型视觉-语言模型(LVLM)的环境感知系统,通过穿戴设备捕捉当前面对的场景,并通过设备获取分析结果,帮助他们更好地理解周围的环境。视力障碍人士可以通过长按屏幕激活LVLM输出,获取场景的全局描述;通过轻触或滑动屏幕,检索由分割模型生成的场景中物体的类别;通过双击屏幕,获取感兴趣的物体的详细描述。为了帮助视力障碍人士更准确地感知世界,本文提出了将RGB图像的分割结果作为外部知识整合到LVLM的输入中,以减少LVLM的幻觉。在POPE、MME和LLaVA-QA90上的技术实验表明,该系统相对于Qwen-VL-Chat能够提供更为准确的场景描述。探索性实验表明,该系统有助于视力障碍人士有效感知周围的环境。