LLM2D

摘要

我们证明了广泛的机器学习算法实际上是单一范式——互惠学习的具体实例。这些实例涵盖了从主动学习到多臂赌博机再到自我训练。我们展示了这些算法不仅从数据中学习参数，同时也反过来：它们迭代地根据当前模型拟合情况改变训练数据。我们引入互惠学习作为这些算法的泛化，并使用决策理论的语言进行描述。这使我们能够研究它们在什么条件下收敛。关键在于保证互惠学习收缩，以便适用Banach不动点定理。通过这种方式，我们发现，在相对温和的损失函数假设下，如果预测是概率性的且样本适应既非贪心又是随机或正则化的，互惠学习算法以线性速率收敛到近似最优模型。我们解释了这些发现，并提供了将其与具体的主动学习、自我训练和赌博机算法相关联的推论。