LLM2D

摘要

arXiv:2504.14107v1 类型: 新摘要: 现代AI模型越来越多地被用作理论工具来研究人类认知。一种主导的方法是评估人类衍生的度量标准（例如离线判断或实时处理）是否能被模型的输出预测：即，通过神经网络前向传递的最终产物。与此同时，最近在机制可解释性方面取得的进展已经开始揭示产生模型输出的内部过程，引发了模型和人类是否可能使用相似的“处理策略”来达到输出的疑问。在这里，我们探讨了人类的实时处理与Transformer模型的“层时间”动态之间的联系。在覆盖五个涵盖不同领域和模态的研究中，我们测试了预训练Transformer模型在一个前向传递过程中的计算动态是否能够预测人类处理的特征，而在输出概率分布属性之外。我们一致发现，层时间动态提供了超出输出度量的额外预测能力。我们的结果表明，Transformer处理和人类处理可能受到输入刺激相似属性的促进或阻碍，并且这种相似性是通过通用目标（如下一个标记预测或图像识别）产生的。我们的工作提出了一种新的使用AI模型来研究人类认知的方法：不仅作为将刺激映射到响应的黑箱，而且有可能作为显式的处理模型。