LLM2D

摘要

arXiv:2504.00170v1 跨越类型：交叉摘要：将机器学习模型的训练外包给云提供者是一种常见做法。这样做，客户可以从云的规模经济中获益，但同时也隐含了一种信任：服务器不应偏离客户的训练程序。恶意服务器可能会试图在模型中植入后门。在没有事先了解后门攻击及其触发机制的情况下，检测被植入后门的模型仍是一个具有挑战性的问题。在本文中，我们展示了如何通过让拥有多个云提供者的客户在多个服务器上复制一部分训练步骤，从而以类似于差异测试的方式检测训练程序的偏差。假设一些云提供的服务器是无害的，我们通过回.dooring（即后门攻击）所需的模型更新与干净训练所产生的更新之间的显著差异来识别恶意服务器。我们的方法最强大的优点之一是它适用于具有有限或根本没有本地计算能力来进行训练的客户；我们利用多个云提供者的存在来识别恶意更新，而无需昂贵的人工标注或大量的计算。我们在一项外包的监督学习任务中进行了演示，其中50%的云提供者植入了自己的后门，我们的方法能够正确识别其中的99.6%。实际上，我们的方法之所以成功，是因为它用基于异常检测的范例取代了现有方法的基于签名的范例。此外，我们的方法对于利用我们检测方案知识的适应性攻击者而言具有鲁棒性。