摘要
我们证明了广泛的机器学习算法实际上是单一范式——互惠学习的具体实例。这些实例涵盖了从主动学习到多臂赌博机再到自我训练。我们展示了这些算法不仅从数据中学习参数,同时也反过来:它们迭代地根据当前模型拟合情况改变训练数据。我们引入互惠学习作为这些算法的泛化,并使用决策理论的语言进行描述。这使我们能够研究它们在什么条件下收敛。关键在于保证互惠学习收缩,以便适用Banach不动点定理。通过这种方式,我们发现,在相对温和的损失函数假设下,如果预测是概率性的且样本适应既非贪心又是随机或正则化的,互惠学习算法以线性速率收敛到近似最优模型。我们解释了这些发现,并提供了将其与具体的主动学习、自我训练和赌博机算法相关联的推论。