LLM2D

摘要

arXiv:2501.13676v2 宣布类型: replace-cross 摘要：文本分类器对小扰动非常敏感，如果这些扰动是敌对选择的，可能会剧烈改变模型的输出。验证方法可以通过计算鲁棒准确率的有保证的下界，来提供对抗性扰动下的鲁棒性证书。然而，现有的验证方法成本极高，且无法实际处理莱文斯坦距离约束。我们首次提出了一种计算卷积分类器在莱文斯坦距离下的Lipschitz常数的方法。我们使用这些Lipschitz常数估计值对1-Lipschitz分类器进行训练。这使得在单次前向传播过程中就可以计算出分类器的认证半径。我们的方法LipsLev在AG-News数据集上分别在距离为1和2时，能够分别获得38.80%和13.93%的验证准确率，其速度比现有方法快4个数量级。我们认为我们的工作可以为文本领域的更高效验证打开大门。