LLM2D

摘要

arXiv:2504.13551v1 Announce Type: cross 摘要：提出了许多对抗性攻击方法来验证语言模型的漏洞。然而，这些方法需要大量的查询和目标模型的信息。即使是黑盒攻击方法，也需要目标模型的输出信息。在现实世界场景中，这些方法并不适用，尤其是在目标模型封闭且无法访问的严格黑盒设置中。即使最近提出的严格黑盒攻击方法仍然需要大量查询，并且对生成对抗性生成器的训练成本要求极高。为了解决这些挑战，我们提出了Q-faker（无需查询的严格黑盒攻击者）这一新颖且高效的生成对抗性示例的方法，该方法无需访问目标模型。为了避免访问目标模型，我们使用替代模型。替代模型为目标无感知攻击生成对抗性句子。在此过程中，我们利用了受控生成技术。我们在八个数据集上评估了我们提出的方法。实验结果证明了该方法的有效性，包括高的移植性和生成的对抗性示例的高品质，并证明了其在严格黑盒设置中的实用性。