LLM2D
超越注意力:向着具有内在高层次心理状态的机器进发
Beyond Attention: Toward Machines with Intrinsic Higher Mental States
作者: Ahsan Adeel
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06257v1

摘要

arXiv:2505.06257v1 类型: cross 摘要: 注意重点信息是哺乳动物大脑和现代机器学习模型(如变压器)的基本原理。然而,确定相关性仍然是一个核心挑战,传统上被学习算法(如反向传播)卸载处理。受到最近神经细胞生物学证据的启发,这些证据将新皮层棱柱细胞与不同的心理状态联系起来,这项工作展示了模型(例如,变压器)如何模仿高级感知处理和清醒思考(想象)状态,在应用注意力之前预先筛选相关信息。三元神经级调制回路,其中问题($Q$)、线索(键,$K$)和假设(值,$V$)相互作用,能够在表示层面使多样化的、深刻的、并行的推理链变得可能,并允许从初始偏见快速转向精炼的理解。这导致了学习速度显著加快,计算需求大大减少(例如,较少的头数、层数和标记数),成本约为$\mathcal{O}(N)$,其中$N$是输入标记的数量。结果涵盖了强化学习(例如,在高维视觉设置下的CarRacing)、计算机视觉和自然语言问答。