LLM2D

摘要

arXiv:2505.04488v1 类型：交叉摘要：目前，视力受损的人口，尤其是严重视力受损的人口数量庞大，日常活动对他们构成了重大挑战。尽管许多研究利用大型语言和语言-视觉模型来帮助盲人，但大多数研究集中在静态内容上，未能在动态和复杂环境中，如日常活动中，满足实时感知需求。为了给他们提供更有效的智能辅助，急需引入先进的视觉理解技术。尽管实时视觉和语音交互 VideoLLMs 在实时视觉理解方面表现出强大的能力，但此前没有研究系统地评估它们在辅助视力受损个体方面的有效性。在这项工作中，我们首次进行了这样的评估。首先，我们构建了一个基准数据集 (VisAssistDaily)，涵盖了视力受损个体的三种辅助任务类别：基本技能、家庭生活任务和社会生活任务。结果显示，GPT-4o 实现了最高的任务成功率。接下来，我们进行了一项用户研究，以评估模型在封闭世界和开放世界场景中的表现，进一步探讨了在辅助环境中应用 VideoLLMs 的实际挑战。我们识别的一个关键问题是，当前模型在动态环境中感知潜在威胁的困难。为了解决这个问题，我们构建了一个名为 SafeVid 的环境感知数据集，并引入了一种投票机制，使模型能够主动检测环境风险。我们希望这项工作为该领域的未来研究提供有价值的见解和灵感。