摘要
arXiv:2405.02929v3 动态通知类型: 替换-交叉
摘要: 以前的扫描路径预测研究主要集中在群体模型上,忽视了个体的扫描路径和注意行为是多样的事实。这种忽视对社会人机交互尤其有害,其中机器人通常基于启发式方法或预定义的模式模仿人类的注视。然而,人类的注视模式是异质性的,不同的行为会对这种人机交互的结果产生显著影响。为了弥补这一差距,我们开发了一种基于深度学习的社会线索整合模型,用于预测显著性,以预测视频中的扫描路径。我们的模型通过门控机制和顺序注意,递归地整合固定历史和社会线索来学习扫描路径。我们在动态社会场景的注视数据集下观察的自由观看条件下,评估了我们的方法。将固定历史引入我们的模型,使得有可能训练一个统一的模型,而不是为每个扫描路径集训练单独的模型,而不是资源密集型的方法。我们观察到,当在大数据集上训练模型时,晚期神经整合方法优于在具有相似分布的小数据集上进行早期融合。结果还表明,利用所有观察者扫描路径训练的统一模型与单独训练的模型相比,性能相当或更优。我们推测,这一结果是因为群体显著性表示在模型中灌输了普遍注意,而监督信号和固定历史引导它学习个性化的行为,从而使统一模型比个别模型更有优势,因为后者隐含地表示了普遍注意。