LLM2D
一种受机器人学启发的扫视模型揭示了在动态场景中注视引导的重要性及不确定性与语义物体线索的作用
A Robotics-Inspired Scanpath Model Reveals the Importance of Uncertainty and Semantic Object Cues for Gaze Guidance in Dynamic Scenes
作者: Vito Mengers, Nicolas Roth, Oliver Brock, Klaus Obermayer, Martin Rolfs
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2408.01322v3

摘要

arXiv:2408.01322v3 通告类型: 替换-交叉 摘要: 我们感知的对象在观察真实世界的动态场景时引导着我们的眼球运动。然而,眼动转移和选择性注意力对于感知细节和细化对象边界至关重要。对象分割和注视行为通常被视为两个独立的过程。本文展示了一个计算模型,该模型以相互关联的方式模拟了这些过程,并允许进行假设驱动的注意力机制探究。借鉴了机器人领域的信息处理模式,我们使用贝叶斯滤波器递归地分割场景,同时也提供了一个用于引导主动场景探索的对象边界不确定性估计。研究表明,该模型在动态真实世界场景的数据集上与观察者的自由视图行为非常相似,由扫描路径统计学测量,包括用于参数拟合的视网膜持续时间和用于高级统计学的散跳幅度分布,而不用于拟合。这些包括对象检测、检查和返回之间的平衡以及没有显式实现的返回散跳延迟。广泛的模拟和消融研究表明,不确定性促进了平衡探索,并且语义对象线索对于形成用于基于对象注意力的感知单位至关重要。此外,我们展示了我们模型的模块化设计如何允许扩展,例如整合散跳动量或预散跳注意力,以进一步使输出与人类扫描路径一致。