LLM2D

摘要

人工智能系统不断增长的计算需求导致了服务的出现，这些服务代表缺乏必要资源的客户进行模型训练。然而，确保训练的正确性并防范潜在的训练时攻击（例如数据投毒和后门）带来了挑战。现有的可验证训练工作主要分为两类：基于证明的系统（难以扩展）和“乐观”方法（考虑可以复制训练过程并对训练者提出异议的第三方审计者）。后者的一个关键挑战是训练过程中 GPU 类型之间的非确定性阻止了训练过程的精确复制，导致方案缺乏鲁棒性。我们提出了一种方法，该方法将以高于目标精度的精度进行训练，在中间计算后进行舍入，并基于自适应阈值过程共享舍入决策，以成功控制非确定性。在三种不同的 NVIDIA GPU（A40、Titan XP、RTX 2080 Ti）上，我们实现了 ResNet-50（23M）和 GPT-2（117M）模型的完整训练和微调在 FP32 精度下的精确训练复制。与基于证明的系统相比，我们的可验证训练方案显着降低了存储和时间成本，并在 https://github.com/meghabyte/verifiable-training 公开发布。