LLM2D

摘要

arXiv:2504.18027v1 交叉公告类型摘要：由于自然场景的复杂性，视力障碍人士很难感知周围的环境，因此他们的个人和社会活动受到了极大的限制。本文介绍了一种基于大型视觉-语言模型（LVLM）的环境感知系统，通过穿戴设备捕捉当前面对的场景，并通过设备获取分析结果，帮助他们更好地理解周围的环境。视力障碍人士可以通过长按屏幕激活LVLM输出，获取场景的全局描述；通过轻触或滑动屏幕，检索由分割模型生成的场景中物体的类别；通过双击屏幕，获取感兴趣的物体的详细描述。为了帮助视力障碍人士更准确地感知世界，本文提出了将RGB图像的分割结果作为外部知识整合到LVLM的输入中，以减少LVLM的幻觉。在POPE、MME和LLaVA-QA90上的技术实验表明，该系统相对于Qwen-VL-Chat能够提供更为准确的场景描述。探索性实验表明，该系统有助于视力障碍人士有效感知周围的环境。