摘要
由于反向传播的局限性,基于扰动的梯度计算方法近年来得到了关注,这种方法仅需正向传播,也称为查询。传统的正向学习在每个数据点上消耗大量的查询来通过蒙特卡罗采样进行精确的梯度估计,这阻碍了这些算法的可扩展性。然而,并非所有数据点都值得进行等量的查询来进行梯度估计。本文从一个新颖的角度研究了提高正向学习效率的问题:如何在最小成本下降低梯度估计方差?为此,我们提出在训练过程中为每个批次中的每个数据分配最佳的查询数量,以在估计精度和计算效率之间取得良好的平衡。具体来说,通过简化的代理目标和重新参数化技术,我们推导出了一种具有最少参数的新型即插即用查询分配器。理论结果验证了其最优性。我们对在各种数据集上微调视觉Transformer进行了广泛的实验,并将分配器进一步部署到两个黑盒应用中:基础模型的提示调优和多模态对齐。所有结果表明,我们提出的分配器显着提高了正向学习算法的可扩展性,为实际应用铺平了道路。