LLM2D

摘要

arXiv:2405.02929v3 动态通知类型: 替换-交叉摘要: 以前的扫描路径预测研究主要集中在群体模型上，忽视了个体的扫描路径和注意行为是多样的事实。这种忽视对社会人机交互尤其有害，其中机器人通常基于启发式方法或预定义的模式模仿人类的注视。然而，人类的注视模式是异质性的，不同的行为会对这种人机交互的结果产生显著影响。为了弥补这一差距，我们开发了一种基于深度学习的社会线索整合模型，用于预测显著性，以预测视频中的扫描路径。我们的模型通过门控机制和顺序注意，递归地整合固定历史和社会线索来学习扫描路径。我们在动态社会场景的注视数据集下观察的自由观看条件下，评估了我们的方法。将固定历史引入我们的模型，使得有可能训练一个统一的模型，而不是为每个扫描路径集训练单独的模型，而不是资源密集型的方法。我们观察到，当在大数据集上训练模型时，晚期神经整合方法优于在具有相似分布的小数据集上进行早期融合。结果还表明，利用所有观察者扫描路径训练的统一模型与单独训练的模型相比，性能相当或更优。我们推测，这一结果是因为群体显著性表示在模型中灌输了普遍注意，而监督信号和固定历史引导它学习个性化的行为，从而使统一模型比个别模型更有优势，因为后者隐含地表示了普遍注意。