摘要
人工智能系统不断增长的计算需求导致了服务的出现,这些服务代表缺乏必要资源的客户进行模型训练。然而,确保训练的正确性并防范潜在的训练时攻击(例如数据投毒和后门)带来了挑战。现有的可验证训练工作主要分为两类:基于证明的系统(难以扩展)和“乐观”方法(考虑可以复制训练过程并对训练者提出异议的第三方审计者)。后者的一个关键挑战是训练过程中 GPU 类型之间的非确定性阻止了训练过程的精确复制,导致方案缺乏鲁棒性。我们提出了一种方法,该方法将以高于目标精度的精度进行训练,在中间计算后进行舍入,并基于自适应阈值过程共享舍入决策,以成功控制非确定性。在三种不同的 NVIDIA GPU(A40、Titan XP、RTX 2080 Ti)上,我们实现了 ResNet-50(23M)和 GPT-2(117M)模型的完整训练和微调在 FP32 精度下的精确训练复制。与基于证明的系统相比,我们的可验证训练方案显着降低了存储和时间成本,并在 https://github.com/meghabyte/verifiable-training 公开发布。