摘要
arXiv:2504.13551v1 Announce Type: cross
摘要:提出了许多对抗性攻击方法来验证语言模型的漏洞。然而,这些方法需要大量的查询和目标模型的信息。即使是黑盒攻击方法,也需要目标模型的输出信息。在现实世界场景中,这些方法并不适用,尤其是在目标模型封闭且无法访问的严格黑盒设置中。即使最近提出的严格黑盒攻击方法仍然需要大量查询,并且对生成对抗性生成器的训练成本要求极高。为了解决这些挑战,我们提出了Q-faker(无需查询的严格黑盒攻击者)这一新颖且高效的生成对抗性示例的方法,该方法无需访问目标模型。为了避免访问目标模型,我们使用替代模型。替代模型为目标无感知攻击生成对抗性句子。在此过程中,我们利用了受控生成技术。我们在八个数据集上评估了我们提出的方法。实验结果证明了该方法的有效性,包括高的移植性和生成的对抗性示例的高品质,并证明了其在严格黑盒设置中的实用性。