LLM2D

摘要

arXiv:2411.09176v3 公告类型：替换摘要：设想在一个硬币集合中寻找25美分、10美分、5美分和1美分的硬币——一种混合觅食任务，观察者需寻找多种类型的多个目标。在这种任务中，目标的价值和出现频率如何影响觅食和眼球运动行为（例如，你应该优先寻找稀有的25美分硬币还是常见的5美分硬币）？为探索这一问题，我们进行了人类知觉生理学实验，揭示了人类擅长奖励觅食。他们的眼球注视点被更高平均奖励区域吸引，在更值钱的目标上注视的时间更长，累积奖励超过随机水平，接近最优觅食者的上限。为了探究人类的决策过程，我们开发了一个基于变换器的视觉觅食器（VF）模型，通过强化学习进行训练。VF模型接受一系列目标、它们相应的价值以及搜索图像作为输入，使用中心视野处理图像，并生成一系列眼球运动序列以及是否收集每个注视项目的决策。我们的模型在所有基线中表现最佳，累积奖励与人类相当，并在限时环境中近似人类的眼球运动和觅食偏好。此外，对新颖目标、未见价值和不同集合大小的离分布测试显示了VF模型的有效泛化能力。我们的工作为眼球运动与决策之间的关系提供了有价值的见解，我们的模型作为进一步探索这一联系的强大工具。所有数据、代码和模型均在https://github.com/ZhangLab-DeepNeuroCogLab/visual-forager上提供。