LLM2D

摘要

arXiv:2408.01322v3 通告类型: 替换-交叉摘要: 我们感知的对象在观察真实世界的动态场景时引导着我们的眼球运动。然而，眼动转移和选择性注意力对于感知细节和细化对象边界至关重要。对象分割和注视行为通常被视为两个独立的过程。本文展示了一个计算模型，该模型以相互关联的方式模拟了这些过程，并允许进行假设驱动的注意力机制探究。借鉴了机器人领域的信息处理模式，我们使用贝叶斯滤波器递归地分割场景，同时也提供了一个用于引导主动场景探索的对象边界不确定性估计。研究表明，该模型在动态真实世界场景的数据集上与观察者的自由视图行为非常相似，由扫描路径统计学测量，包括用于参数拟合的视网膜持续时间和用于高级统计学的散跳幅度分布，而不用于拟合。这些包括对象检测、检查和返回之间的平衡以及没有显式实现的返回散跳延迟。广泛的模拟和消融研究表明，不确定性促进了平衡探索，并且语义对象线索对于形成用于基于对象注意力的感知单位至关重要。此外，我们展示了我们模型的模块化设计如何允许扩展，例如整合散跳动量或预散跳注意力，以进一步使输出与人类扫描路径一致。