LLM2D

摘要

训练可证明鲁棒的神经网络是一项重要但极具挑战的任务。虽然已经提出了许多用于（确定性）可证明训练的算法，但它们通常在不同的训练计划、认证方法和系统性欠调的超参数下进行评估，这使得难以比较它们的性能。为了解决这一挑战，我们引入了 CTBENCH，这是一个统一的库和一个高质量的可证明训练基准，它在公平的设置和系统性调优的超参数下评估所有算法。我们表明：（1）CTBENCH 中几乎所有算法在算法改进的幅度上都超过了文献中相应的报道性能，从而建立了新的最先进水平，以及（2）当我们通过公平的训练计划、公平的认证方法和经过良好调优的超参数来增强过时的基线时，最近算法的声称优势会大幅下降。基于 CTBENCH，我们对可证明训练的现状提供了新的见解，并提出了未来的研究方向。我们相信 CTBENCH 将作为未来可证明训练研究的基准和测试平台。